腾讯科技讯 12月17日,由鹏城实验室、新一代人工智能产业技术创新战略联盟共同举办的“新一代人工智能院士高峰论坛”在深圳举行。论坛汇聚了国内人工智能领域顶尖专家,共同探讨行业变革与技术创新,探寻AI边界,是人工智能领域最值得关注的年度盛会之一。
腾讯Robotics X实验室主任张正友在论坛上发表题为《人工智能和智能机器人》的演讲,阐述了人工智能和机器人的发展趋势及技术突破点等问题。张正友博士是ACM Fellow(国际计算机学会院士)和 IEEE Fellow(国际电气电子工程师学会院士),是世界著名的计算机视觉和多媒体技术的专家,于2018年3月加入腾讯,担任腾讯机器人实验室“Robotics X”主任,负责整个实验室的筹备、管理与运营。
以下为张正友博士演讲实录:
各位领导、各位院士、各位同学,大家好!首先感谢高文老师邀请,给我一个机会跟大家分享一下我对人工智能和智能机器人的一些想法。
在此之前我想介绍一下我自己,因为我是最近才回到国内的,我从1986年就离开了祖国。我是1985年从浙大毕业的,当时第一次接触计算机,用的是大型计算机,可能大家都没用过,我当时用的是打孔的卡片,和电脑交互。毕业以后就去了法国,在法国之后用的电脑就越来越小,刚开始我学的是语音识别,后面转到计算机视觉,当时觉得语音识别太简单了,只是一维信号,所以开始做立体视觉。我参与开发了世界上第一个用三维视觉做导航的的移动机器人。然后我还参与了欧洲Mars Rover,也就是航天机器人,还有海底机器人。在法国十几年之后,我去了日本,在日本待了一年,开发了世界上第一个用人工神经网络做人脸表情识别的系统。1998年加入了微软研究院,在微软工作了20年,开发了“张氏标定法”,就是摄像机标定的方法,现在全世界都在用这个方法,无论是无人驾驶、机器人还是视觉方面都在使用。我也参与开发了Kinect深度传感器,还有远程呈现机器人的研究工作。我介绍这些,主要是讲我为什么有现在的这些想法,这是和我的经历有关系的。
下面我讲一下人工智能,人工智能是一个多学科的交叉研究,现在大家可能都觉得人工智能都是和计算机有关,其实它是和脑神经学、认知科学、社会科学有紧密关系的,它主要的目的是模拟包括识别、分析、认知和决策等等方面的智能。
人工智能技术是有很多层次的,从基础设施到硬件计算能力、算法、技术方向,包括计算机视觉、语音处理、语言处理等等,到最后运用到具体的技术,解决行业的各个问题。
人工智能技术其实已经发展了好多年,从最开始基于规则,慢慢的基于统计,现在开始做一些数据方面的研究,应用也是很多的。
人工智能经过几个高潮和低潮,现在火起来了,这里面很大的原因就是深度学习,深度学习让我们的识别率在很多方面得到很大提高,超出了我们在实际应用中需要的精确度。比方说以前很长时间,语音识别可能只达到77%,现在已经能达到97%了,其实是可以用了。所以催生了很多公司,包括大公司和小公司,还有创业的很多公司。这里我列了一些国内的公司。
腾讯有一个腾讯AI开放平台,网址是AI.qq.com,它依托腾讯的三个实验室,一个是腾讯AI实验室,一个微信AI实验室,还有一个优图实验室。我加入腾讯创建了一个机器人实验室,目前还没有技术可以用到AI平台上。现在腾讯AI平台已经开放了100多项AI能力的接口,大家需要的话可以去试一试,欢迎大家使用。
下面就回到我今天要讲的主题,我加入腾讯就是想创建机器人实验室,为什么我要参与这项工作?因为我觉得我们在不久的将来要进入到人与机器人共生的时代。为什么我这样讲?刚才我讲了好多方面,一是从计算的演变,计算从最初的大型计算机到PC的普及,到互联网的兴起,到智能手机的普及,到现在可穿戴式或者陪伴的设备的涌现,这些都说明了这个计算能力从最初的固定的时间、固定的程序、固定的地方慢慢变得移动化、无处不在,还有连续化,你随时随地可以拿到你要的信息。另外计算也变得非常个人化,无论是GPS还是信息,都是在你的手机、PC上,得到无微不至的关注。
另外从感知技术上看,刚才讲到我最早用的是打孔的卡片,慢慢有了键盘、鼠标,后面又有了摄像头、触摸器等等。现在我们的智能手机上有很多的传感器,除了摄像头麦克风以外,还有很多其它的传感器,现在设备变得越来越主动、个人化和多模态。但是我们现在还没有充分地把这些感知技术用起来,我们大部分人都是把手机放在口袋里的,女士可能都是放在包里的,这些就是我们的技术还没有得到充分的应用,所以我认为我们应该把这些传感器从口袋里面或者是从女士的包里面解放出来,这是我们以后需要追求的机器人的方向,就是要从非常发达的感知技术里面把这些能力用起来。所以我觉得随着技术发展和感知技术发展,机器人必然会出现,但是目前还不够,所以我们还要继续研发。
接下来讲一下机器人的现在与未来。可以把机器人分成6个部分,第一部分是机器人本体,可能很多人都忘记了,说到人工智能,人家都以为就是一个算法就够了,但是它还要一个本体,这样才能实现真正的智能,本体就包括它的手臂、腿等等。第二是感知,因为机器人需要了解周围的环境,才能做决策。第三是执行器,如果没有执行器的话,机器人本体动不起来。第四是动力系统,第五是交互系统,机器人需要跟机器人交互,还需要和人交互,所以交互系统也是非常重要的。第六是决策,机器人要识别、规划,还要学习。
讲到机器人,大家都会想机器人很早就存在了,以前我们讲的是工业机器人,它更多的是有关自动化的,预先设计好了之后做重复的运动。现在我们开始慢慢往自主方向发展,自主的目的就是要在有很大不定性的动态的环境里面,它要自主地决策需要做的事情,然后完成任务。
我们把自主分成两部分,一部分是反应式自主,它不需要很多深度思考,比方说我们走路的时候可能绊了一跤,我们很快获得平衡,或者是机器你踹它一脚,它马上获得平衡,这是反应式自主。第二个是有意识的自主,需要你决策路径,比如机器狗遇到门,回去规划一个开门动作。
怎么实现这两种自主呢?我用了一个叫做SLAP的范式来描述它,这是讲一个机器人的架构。SLAP是什么意思呢?就是感知Sense和行动Act之间要紧密结合,它帮助我们实现了反应式的自主,然后在这上面有一个Plan,它是做规划的,这个规划是帮助我们去实现有意识的自主,在这个周围我们需要另外一个能力,就是Learn,我等会儿还会继续强调,机器人需要通过和外界交互,通过学习,不断地提升自己的能力。
当你有了智能以后,机器人就可以在很多场景里面,比方说在智能制造、老年陪伴等等很多方面都有应用。
机器人本体目前有6个趋势,第一个是仿生的机器人,比如说蛇形机器人,它可以进入到比较复杂的环境里面,比方说在地震或者其它环境里面搜寻有没有人还活着。第二是灵巧的操控,第三个是触觉技术,第四个是多机器人协同,第五个是人机交互,包括安全交互和物理交互,第六是医疗辅助。
刚才讲到,我认为我们在不久的将来能够进入到人和机器人共生的时代,但是目前的技术还没到那个地步,所以无论是在工业界还是学术界,都需要努力地做更多的研发。我认为机器人领域有一些技术需要突破,才能使得机器人真正能够为人服务。
我把需要的机器人技术突破点总结成A2G理论。A2G是什么理论呢?就是ABCDEFG刚好对应了英文的几个字母,A代表的是AI,B是body,C是Control,D是Developmental,发育学习,E是EQ,F是FlexibleManipulation,G是Guardian Angel。A、B、C是代表了人工智能的基础能力,D、E、F、G是相当于它们需要更高的智能或者是系统。
A就是AI(智能),因为机器人必须要能看、能说、能听,能够理解,这样才能跟外界交互,能够实现它要做的事情。B是Body(本体),这是非常重要的,不同的本体决定了机器人的能力,比方说刚才讲的蛇形机器人,它能够穿过很狭窄的通道,到一个很复杂的环境,所以本体也是需要研究的,C是Control(控制)。这些是比较清楚的需要继续努力的方向。
我刚到腾讯的时间不长,现在我做了三个机器人,是为腾讯新大楼的展厅做的,第一个是绝艺围棋机器人,第二是桌上冰球机器人,第三是一个机器狗。大家知道腾讯AI做了一个绝艺围棋AI,但是无论是绝艺还是AlphaGo,都需要有一个人去下子,绝艺告诉一个人应该下哪个子,他就去下那个子。我们现在加了一个机械臂,它自动去完成下子的任务,这是从本体来做的。从感知角度来讲,它要做一个棋盘和机械臂之间的标定,绝艺要通过后台通讯,知道要下哪一步,控制方面就是机械臂的轨迹控制。桌上冰球的机器人,它的感知是一个高速的摄像头,它能够高速的跟踪冰球的位置,然后预测下一步这个冰球在什么地方出现,它有一个决策,就是到底采用攻击的方法还是防卫的方法,控制就是路径规划和快速控制。机器狗的本体是我们和浙大合作的,这个感知系统是我们自己做的,感知系统能够识别不同的场景和地面,能够避开固定的或者动态的障碍物,控制方面就是针对不同的场景,它能够有不同的步态和平衡控制。
下面给大家看一下几个短视频,这是绝艺机器人,我们目前是用触摸屏来完成跟绝艺的交互。当一个人下了子之后,机械臂就通过和后台通讯,知道应该下哪一个子,然后机械臂就移过去,它同时可以跟两个人下,理论上它可以跟很多人同时下棋。
第二个是冰球机器人,它可以高速地跟踪冰球的位置,它有一个绿色的线是在做预测,它应该在什么时候出现,它会在需要的位置做出反应。
第三个是机器狗,它有一个三维传感器,同时周围有四个广角的摄像头,前面还有一个立体的视觉系统,当看到前面有一个比较高的障碍物,它能够匍匐前进。当看到前面有人的话,它会蹲下来跟人交互。这只是简单的几个系统,是最近我们做的,大家下次有机会参观腾讯的展厅的时候,可以去跟这些机器人互动一下。
我们对机器人ABC的评估标准,要从力量、灵巧、快速、准确和优美的角度评估这些机器人的能力。
这里还想讲一下本体,因为机器人领域里面很多人都强调是人形机器人,对这个问题我有一点思考,人形机器人是不是我们需要追求的机器人的目标?人之所以有直立双足,是经过几百万年演化出来的,是要在荒野里面、大草原里面为了生存下来,所以我们有了直立双足,但是目前机器人的生存环境,大部分情况下都是一个平的地方,再加上几个台阶,所以我们现在去研究机器人,不一定是一个人形机器人,而是应该思考什么样的最佳的机器人本体,在现在的环境里面要去实现你需要的任务。
下面就讲一下D—G。D是进化学习,目前尽管人家说我这个机器人是通过深度学习出来的,但是学习出来的能力还是固定的,放到一个机器人身上,它永远是这样的,但是我们人从出生开始就跟父母、跟周围人交互,能力越来越强大,所以我们怎么让机器人也具备进化的能力,这是我们需要研究的。E是EQ,因为人和机器人是要共存的,它必须对人有一个深刻的理解,包括感情的理解,同时要用适当的方式把这个感情表达出来,让人理解,所以情感交互是非常重要的。F是灵活操控,我们看到电视、电影里面都是高科技的钢盔铁甲的机器人,但是在人和机器人共存的时代,这些机器人往往对人造成伤害,所以我们要研发不会对人造成伤害的机器人,所以这里面有人造皮肤,或者是高精度触感的传感器,这样能够灵活操控。G是Guardian Angel(守护天使),机器人最终的目的是要服务人、保护人,不能把它当做一个独立的个体,它应该跟周围的环境和周围的传感器结合,同时还要和云结合,这样即使你的家庭成员或者朋友不在边上,你也能够很快地跟他们取得感情的交流。
这是我们用于进化学习研究的一个机器人。我们这个实验室的目的就是要为人机共存、共创和共赢的未来准备的,这里面包括了增强人的智力、关怀人的情感,发挥体能的潜力,还有推进人机协作。
前面讲了很多人工智能和智能机器人,现在我要给大家泼点冷水,人工智能和机器人还有很长的路要走,现在仅仅是人工智能和机器人的初春。初春这个描述还是比较符合实际的,一是我们的路还很长,二是初春会有寒流袭击,我们需要有所准备。
举个例子,几周前在宁波街头的一个街头的系统识别到“董明珠过马路闯红灯了”。但事实上董明珠并不在那边,而是卡车的车身广告上有董明珠头像的广告,公交车从旁边经过,识别系统发现了,认为是董明珠闯红灯了,这说明它的识别率是很高的,认出了这个图片是董明珠,但是也说明它是很傻的,它不知道这个不是真人。现在很多东西都非常单一,不接地气,在研究领域我们叫grounding,这里面还有很多的工作要做,这是从计算机视觉方面举的一个例子。
第二个例子是自然语言的,“前门到了,请从后门下车”,我们都明白,但是我不知道这个自然语言理解对不对,我用翻译的方式去看它理解的对不对。我们用谷歌翻译得到的是“Whenthe front door arrives, please get off the back door”。它的翻译显然是错的。一是“front door”一般不会“arrive”,二是这里的前门不是“front door”。我觉得可能谷歌不懂中国的国情,所以我用了百度的翻译,它还是翻译成“Front Door”,所以百度对中国还是不了解。我想可能是我的语法不对,我改成了“前门车站到了,请从后门下车”,百度的翻译仍然不对,这是人工智能语音方面的。自然语言也需要grounding。
还有机器人方面的例子,大家知道有一个叫索菲亚的机器人,据说被沙特阿拉伯授予他们的公民,他们说可以和人交互,但是它还远远达不到这样的水平,它的对话都是通过预先设计好的场景来对话的。人家说人工智能会消灭人类,我已经从事了30多年的人工智能研究,我觉得是不用担心的。
但是确实人工智能已经发展了很多,有很多应用的地方,所以我们需要继续往前推进人工智能的应用。但是也要继续投入更多的研究,无论是视觉、语音还是自然语言,或者是机器人,还有认知等等,都需要继续努力,不光是应用,还要有基础的研究,所以我觉得有鹏城实验室这样一个平台是非常好的。我也非常乐意回到祖国,和大家一起为人工智能的发展贡献我自己的一份力量。谢谢大家!