AI创新与落地-产业动态-自动化新闻网

　　深度学习带来全新的 AI 技术革命

　　人类有据可查的四五千年的历史，其实是一场又一场持续不断的技术革命。从渔猎时代到农业时代，再到蒸汽时代、电力时代，技术的革命带来了生产力工具的革命，进而影响到人类社会的发展。

　　我们在过去七八年间所经历的由深度学习带来的 AI 技术的进步，会给我们带来进一步的生产力的革命。过去的几次生产力革命，更多的是从我们的物理能力上面做了延展，使我们能够跑的更快、跳的更高、力气更大、动作更敏捷、更不知疲劳。但是 AI 的技术是对人类脑力的一次延展，使我们能够看的更远、看的更清楚、想的更快、想的更透彻。因此 AI 技术所带来的生产力的进步可能会跟以往四次技术革命有一些本质上的突破和区别。

　　人工智能其实是一个古老的话题，在这之前已经经历过两次浪潮的起落。我们现在正在经历的这次人工智能浪潮从 2010 年之后开始，以深度学习技术真正被实用化为起点，迎来了第三次高潮。在这一波 AI 浪潮中，技术和工程上都取得了很多突破，并且这些突破在多个 AI 相关领域，不管是计算机视觉技术，还是在语音，甚至在一部分自然语言处理等各方面都得到了验证。

　　传统机器学习的特征工程化是一项特别庞大的工作，需要耗费非常多的人力，要有大量数据工程师、算法工程师投入其中，他们玩命做的就是这样一件事情——如何从海量数据中提取出一个更好的特征或者更好的一些特征集，然后再把它输入到神经网络里面去。深度学习所带来的改变，就是我们不再需要太多的人为干预去创造特征。有了深度学习之后，特征工程可以靠神经网络自己不断地学习做出来。

　　为什么说深度学习带来了一场新的技术革命？AI 技术在过去 60 年起起伏伏，但只有深度学习出现之后才带来了根本性的变化和进展。2014 年左右，深度学习图像分类的准确率在 ImageNet 比赛中第一次超过了人眼准确率，将传统计算机视觉的准确率提升了 20% 以上。在很多其他细分领域，深度学习也发挥了很大的作用。相当于人类获得了一项工具，工具能够从我们生活的方方面面显著地提升我们的能力。量变最后会发生质变，就会带来技术革命。现在媒体上经常听到两种不同的观点，一种认为强人工智能就要来了，人类应该开始考虑如何不被机器取代，还有一种则比较悲观，认为现在的 AI 浪潮也只是昙花一现。

　　我认为任何一种技术的进步都一定会经历三个阶段，第一个阶段是技不如人。在 2011 年之前，从图形图像识别来说，机器是技不如人，人的错误率大约在 6%，而机器的错误率高达百分之几十，基本是瞎猜。第二个阶段是超越大众，这里指的是在一些定义得比较好的细分问题领域超越大众。第三个阶段是超越专家，超越的方向分为两个，一个是在任何细分领域都可以超越，另一个是技术在横向层面的延展，本来以前人类不能做的事情现在可以做了。

　　那我们现在在哪呢？我们正处在从技不如人到超越大众阶段的拐点。为什么说它处在这样一个阶段，是因为我们的超越也是在不同的细分领域上逐步达成的。比如现在在人脸识别上，机器比人要强的多。但是在很多其他领域，比如自动驾驶，对环境道路的认知上，机器还需要再迭代一段时间，才能够达到人今天能够达到的高度。当我们达到超越大众的阶段之后，你会发现很多的产业或产品都会发生巨大的变化。

　　AI 在商汤的创新与落地

　　但光谈技术本身是没有价值的，技术必须跟产业结合、跟人的实际生活结合，才能真正地把它的价值体现出来。

　　对于商汤而言，我们一方面是在 AI 技术上不断地推进和迭代，更重要的另一项工作是把这些研究的成果真正赋能到各个产品和行业中，为人类服务。这里我想从三个方面去谈 AI 在商汤的创新落地，第一个是技术与平台，第二个是产品，第三个是行业解决方案。

　　AI 技术与平台

　　在技术与平台层面，商汤主要关注三个比较重要的技术方向。

　　深度学习平台 SenseParrots

　　商汤自建 SenseParrots 深度学习平台支持超深网络和超大数据学习。我们的训练平台可以支持超过十亿数据样本在一个学习 Job 里完成，这是在大型分布式系统的支持下实现的。另外，SenseParrots 可以解决复杂的关联性应用。我们在实践当中发现大量的问题不是靠一个深度学习的模型就能解决的，它往往是一些深度学习模型的组合，再加上一个逻辑。所以当我们去针对这些端到端的问题进行训练的时候，一定是复杂关联应用的训练，而不是局部的优化。

　　从算力上来看，商汤在过去几年所拥有的 GPU 数量已经有了非常大的提升。现在我们的集群里有 14000 个 GPU，最大的单个集群有超过 1000 个 GPU，也就是说一个训练的 Job 可以在 1000 个 GPU 上并行实现。另外，商汤已经积累了覆盖 18 个不同行业，超过 100 亿的图像、视频数据，可以使我们的训练质量越来越好。

　　AR 引擎 SenseAR

　　增强现实指的是，一个场景中有一部分是在物理世界真实存在的，有一部分是虚拟的，虚拟的这部分是对物理世界的增强。如果想做 AR，首先要对物理世界有感知，机器要比较好地了解物理世界，对它有一个很好的数字化的理解，然后再把虚拟的物体有机地和这个被数字化过的物理世界做结合。AR 是一个双向的交互方式，既有机器对人的观察，也有机器对人的展现。

　　提一个 AR 相关的技术，6 个自由度下的实时跟踪。这个问题的挑战在于，手机本身是人拿在手里的，它的角度、位置以及方向等各方面都在不断变化，在这种情况下，摄像头也会随之颤抖。换句话说，你的取景角度、方位也好，都在发生变化。在这种条件下如何获取稳定的、对于物理世界的理解，同时去产生一个稳定的虚拟物体，在物理世界上的输出，是比较大的挑战。

　　这里谈一下“稀疏点恢复”。我们能够用点云对外面世界的关键点做提取，当关键点的位置发生变化的时候，就能够知道视角发生了一定的偏移，同时再跟手机内部本身的陀螺仪等组件给出的参数不断地做校准，就能做到在产生 AR 效果的时候没有偏差和抖动，保证精度和稳定的跟踪。第二个，它能够做到在有限的算力下获得有效的输出。对于点云而言，当它能够处理的点越多，就意味着可以产生更大密度的点云的提取，或者能够从更大的范围去做提取，这都是对 3D AR 很重要的技术。

　　商汤很早就开始在做 AR 平台了。2017 年下半年的时候，Google 和 Apple 分别发布了他们自己的 AR 平台，而商汤的 SenseAR 平台从 2016 年开始就在内部使用了。

　　另外还有关键点技术，它不光用在 AR，它对于人脸比对和验证也很重要。关键点指的是人脸上面比较重要的一个点，它能够反映一个人的脸部特征，不管是以前的 106 个关键点，还是现在的 240 个关键点的行业标准，也都是由商汤定义的。

　　自动驾驶技术 SenseDrive

　　接下来我想谈谈自动驾驶场景和技术。

　　可驾驶区域和车道线的检测是自动驾驶最基本的能力之一，而这样的一种能力用计算机视觉技术是最适合的。因为第一步需要对道路的基础设施提出更多改变的需求，第二它能够达到很高的精度。下面展示了一些例子，包括车辆距离的检测以及行人意图的检测。右边这张图是通过自动驾驶系统判定行人想往哪个方向走、以多快的速度走，这是对行为的理解，在自动驾驶里非常重要。

　　当我们用计算机视觉去解决类似车道线检测这样的实际问题的时候，不光会用到深度学习技术，也需要和人的经验或者传统的规则做结合，才能达到更好的效果。这里举个例子，下面第一张图是原图，可以看到其实从摄像头看过去，右边是被车辆遮挡的，但我们有一些先验的知识，将这些先验知识和深度学习做结合之后，就能很好地还原出黄色的车道线，就是右边的图。

　　自动驾驶不光是看车窗外面，还要看车窗里面。下图演示的是对驾驶员的理解和监控，比如他注视的方向，所做的动作，包括打电话、打盹等。DMS 应用中，需要做到对人瞳孔的实时定位。通过对瞳孔的定位去感知他的视线，通过视线的感知，知道他的注意力在哪个方向。当前不管是用 2D 还是 3D Sensor 都能达到比较高的精度，这些技术也不断地应用在汽车里。大家慢慢可能会在车里看到更多的这种被 AI 驱动的驾驶员感知能力。

　　AI 产品

　　智能手机

　　商汤在智能手机上的 AI 落地产品包括人脸解锁、人脸 3D 重建、SenseMoji 等等。

　　人脸解锁是苹果在 2017 年 iPhoneX 发布的时候推出的。几乎在同期，国内很多企业的安卓系统也发布了人脸解锁功能。目前中国主要的手机厂商都在大量应用商汤的人脸解锁技术。从人脸解锁算法的普适性（包括适用于不同的模组、不同的处理器），以及达到的精度和速度来说，商汤在全球都是领先的。人脸识别的错误率上，我们能够达到 10 的负八次方，超过苹果的 10 的负六次方。

　　人脸解锁的流程，主要说几个点，第一，针对不同的模组，包括 3D、2D、2.5D、结构光、ToF 各种不同的 Sensor，我们都有相应的算法支撑和迭代。第二，图中蓝色部分是对活体检测和反攻击能力的构建。活体检测指的是通过模型检测是不是一个真正的活人，它也是矛和盾在不断互相对抗的过程。一开始大家可能想用照片来骗过人脸解锁，后来想着用视频，再后来想用 3D 面具，或者带有一定遮挡的 3D 面具等不同技术手段来做攻击。所以我们活体检测技术也会相应地升级去防止这种系统性的攻击。

　　另外一个人脸的 3D 重建，只需要用手机拍下脸部上下左右和正面五个角度略有不同的照片以后，我们就能够构建出人脸的 3D 模型。当我们有了人脸 3D 模型以后，就可以在上面加入特效、美颜等功能。

　　在小米 8 透明探索版和华为 nova3 中使用了商汤的 SenseMoji 技术，它可以模仿人的表情来生成相应的动物表情包，还能够感知人呈现出的情绪状态来改变表情包的颜色。SenseMoji 背后涉及的技术首先是关键点的定位与追踪，需要把人脸重要的点找出来，然后基于机器学习去探索和发现，当这些关键点和正常的平静的脸部表情之间有偏差的时候代表的是什么情绪，最后构建出来以后再把情绪通过虚拟的形象表达出来，这又叫人体的表情迁移。

　　刷脸

　　大家一提商汤就会想到刷脸，我们确实也刷脸。刷脸其实不光用在 Access Control 里面，包括支付、认证、会员和 VIP 的识别等都可以用到。这也是计算机视觉最早落地和产品化的技术之一。

　　人脸检测其实有很多技术上的难点。第一个难点，当人通过闸机的时候，人跟闸机上的摄像头之间的距离是不断变化的。越好的算法，它对变化的适应性越强，能够越快地去做人的比对，然后开门或拒绝开门。因为摄像头是以每秒钟比如说 25 帧这样的速度去拍摄的，所以最简单的做法是，当我拍下来一张图片的时候，就以各种预设好的图片的大小去把框截取出来做人脸的检测，再把检测到的人脸做拉伸。这面临的很大的挑战就是算力，这样做的算法是对各种尺寸潜在脸大小的遍历过程。

　　我们的做法是在模型训练当中就把不同尺寸大小的脸结合进去，在模型里做优化，这样能够得到极大的速度提升和精准度的提升。与此相关的，如何优化，包括算法本身的优化，以及工程上的优化，能够提升速度。在同样的一个网络结构，但做了不同类型的优化以后带来的速度提升，最高能够达到 800 倍。这就是 0.01 秒和 8 秒延迟之间的区别。这些技术已经用在多种设备上面，包括酒店入住时用到的身份验证一体机、人脸识别安检通道等设备。

　　行业解决方案

　　对于一个 To B 的产品或行业来说，很多时候 B 端用户并不关注你的产品有多炫、功能有多强，他们在意的是他有一个问题需要解决，你有什么办法能够帮他们解决。行业解决方案涵盖了多种产品和技术，最后要达成的目的就是把客户的痛点解决掉。

　　我们去年跟苏宁一块做了无人店的案例。对于零售行业，线上和线下的体验是不一样的。在线上线下，我们对于信息的获取、选择推荐，以及最后的结算和运输，都是不一样的。为什么会有这样的区别呢？因为线上的交易也好，商业行为也好，是几乎被百分之百数字化的。在这样一个数字化环境里面，我们能够用数字化的手段去做服务提升、降本增效。但是线下在有计算机视觉技术之前，我们很难让机器去理解线下的人、货、场之间的关联，这些事情不能完全靠人力去观察和记录。

　　正是由于计算机视觉技术，我们可以真正去数字化线下的物理世界，当物理世界被数字化之后，就可以做更多计算，用数字化的手段去提升体验和效能，包括刷脸支付、对人流进行分析和统计、对人的偏好进行理解，等等。在这样一个解决方案里面，涵盖了很多技术，包括刷脸的技术，包括对人流统计的技术，包括怎么样能够做到高精度的支付，包括我们对人的行为的理解，等等。这个场景是多项 AI 技术和传统技术的结合，形成了一个全新的解决方案。

　　第二个例子是智慧城市案例，对社区进行数字化改造。

　　在这样一个解决方案里面，除了需要用到很多 AI 的视觉技术之外，我们也需要一个巨大的系统。涵盖的面积越大，需要处理的数据量就越大，不光对 AI 的技术本身的精度提出了更多的要求，同时也对计算机视觉系统提出了更高的要求。上面这些场景背靠的是 SenseFoundary 方舟这样一个平台。

　　方舟平台是到目前为止在业界唯一能够支撑超万路的系统，而且已经被实施部署在多个地方。我们在上海部署的这样一套系统接入了 22000 路视频，是业界绝无仅有的。方舟平台同时还具备很多其他的能力，包括线性扩展能力、多种算法的融合以及扩充的能力，高精度算法自我迭代能力，等等。

　　小结

　　计算机视觉虽然是一个名词，其实它涵盖了很多技术方向。如果想要真正把计算机视觉产业化，不只是需要一两个技术点的突破，它需要的是整体平台性的提升，必须要同时投入多个技术方向，这也是商汤在过去的几年一直持续在做的事情。我们在包括 SLAM、主动学习、三维重建、强化学习、图像分类、底层视觉等方向都有相应的布局和工程上的迭代，这样一来当你碰到一个实际问题的时候才有足够的武器去解决它。

　　如果说我们的 AI 技术想落地，就必须在不同的工业领域上去做探索，才能真正形成一个行业线。AI 技术的创新和赋能百业这两件事情是需要不断地相互迭代、相互促进的。

AI创新与落地

相关阅读

推荐信息

排行榜

更多>>专题报道

视觉焦点