对话阿里iDST负责人华先胜：解读阿里视觉研究的四大方向

内容简介：对话阿里iDST负责人华先胜：解读阿里视觉研究的四大方向

智东西（公众号：zhidxcom）文 | 寓扬在2017云栖大会·上海峰会上，阿里iDST（Institu […]

智东西（公众号：zhidxcom）

文 | 寓扬

在2017云栖大会·上海峰会上，阿里iDST（Institute of Data Science&Technologies，数据科学与技术研究院）视觉计算负责人华先胜接受了智东西的专访，就阿里云视觉计算的应用领域、深度学习、未来技术布局、数据与算法的关系等问题进行讨论。

阿iDST曾被称为阿里巴巴最神秘的部门，它类似于谷歌的Google X实验室，从事一些人工智能、机器学习等前沿领域的科学研究，而不注重短时的商业价值。

而华先胜就是iDST中的一员，他于2015年加入阿里巴巴，于2016年7月加入阿里云人工智能研究机构iDST科学家团队，负责阿里云视觉计算团队的研发工作。此前，华先胜在微软工作了14年，是视觉识别和图像搜索领域的国际权威学者以及IEEE Fellow成员。

一、视觉计算的四大应用方向

华先胜在2001年加入微软，就一直在做视觉识别、图像搜索这个方向。他们当时做了一项技术是把视频浓缩成三五分钟的精华，还配了音乐，这样回放的时候会比较方便，而这也是当时的十二大创新之一。后来由于视频分析的难度较大就转做了图像搜索。而在进入阿里巴巴的第一年，华先胜也是在搜索事业部，就是为了解决以图搜索商品的问题。

但随着技术的发展，尤其是深度学习技术的出现，今天已经有机会对视频里具体的语义进行分析了。当谈到深度学习时，可以观察到华先胜眼神中充满着光芒，话语里充满着肯定。华先胜谈到，目前有两种方法做视觉分析，一种是抽帧来做，图像技术的照片和视频有点不一样，对视频而言是一个连续的动画过程。另一种方法是从视频里面做，可用于追踪，比如在阿里的城市大脑中的识别，当两辆车相撞发生了交通事故，通过对这个片段的追踪，就能够识别发生了什么事情。

而在视觉计算的应用领域上，华先胜谈到了交通、营销、医疗图像分析以及搜索等几个具体的方向，而目前以交通视频为主，将来会逐渐扩展到安全、环境等更多领域。其一在交通视频上，从技术上来说会涉及好几条线，比如是监控的还是个人图像视频，通过对交通视频的监控和分析，就可以知道有什么事件发生了，可应用于追踪、识人等许多方面。

其二可用于精准营销。比如在一个电影里面投放广告，广告的内容肯定要相关，而这就需要对视频内容有所理解。再比如这个人在打瞌睡，你可能这个场景中做一个提神醒脑的广告会更好，这就是以内容为主的识别。华先胜表示，个人、媒体、电影以及网络视频之类可以放在一起来做，它们在技术上是差不多的，只是有时候问题的难度不太一样。

其三是视觉诊断，可应用到医疗图像分析和工业诊断中。华先胜谈到，医疗是阿里云的一个方向，他们也在跟医疗部门进行合作。其实可以把这个归到一个大类里面叫视觉诊断，包括人的诊断、设备的诊断、生产线的诊断等等。如工业生产线上的次品检测，包括生产车间的设备状况，这些过去都需要人来看，一是耗费人力，另外可能环境也不是太好，而有个摄像头可能会解决很多问题，从而大大减少人力。

其四是搜索。它本身是一个技术也是一个场景，比如个人视频里用得到，医疗里面也用得到，它更文字搜索引擎不一样，它是视觉信息，这也是阿里巴巴所擅长的。比如说，在城市一辆车要找它的轨迹，你可以用手机来搜，有个照片也可以搜，或者一张照片搜一个电视剧之类的，这些都是视觉搜索，并且是偏分析识别方向的。另外一个是反过来的，是要生成一些识别信号，比如说生成一个艺术图片，或者根据视频生成一个广告，而这种广告基本不影响体验，会是一种比较优雅的广告，这也是它能够带来商业价值的地方。

二、把神经网络逼到死角

在谈及到深度学习技术时，华先胜对它充满了热枕，他认为深度学习在视觉领域几乎横扫过去的所有传统方法。

他谈到，其实很多传统的研究机器学习的人不能接受深度学习，即为什么这个理论没有完备就可以做的那么好，而原来的传统机器学习有很好的理论，它可以推导，而深度学习有了假设也推不好。很多人觉得深度学习就是随便乱试，其实这需要很多的经验和分析在里面，你这个网络怎么设计，你才能达到你的目的，尤其是你怎么去逼迫你的视频网络达到目的，但这确实是有规律可循的。另外还要有一个好的策略，甚至有一些样本和数据，样本本身也是你最后能不能做好的一个关键因素。

深度学习还有一个好处，你把这个网络设计出来以后，用很多的手段去把它调到好的状态，有很多手段可以让这个网络收敛到你想要的地步，尽管不是所有的问题都能做到，但是你可以去做这件事情，通过训练的策略等很多手段，就相当于说你要让他有很多的目标，把它逼到死角，然后他就能够收敛到你想要的目标。

此外，视觉计算团队也在布局一些未来的技术，如在城市大脑中，如何在一个复杂场景下进行时空异常检测。目前我们有近期的解法，这个可以用机器学习对图像视频做初步的分解，比如说车、人、车流的情况分解，然后通过这些对异常进行检测。那能不能上升到更高的高度，我们有这方面的尝试，但还没有到使用的地步，这种异常情况也并不多，但缺少一个通用的办法来解决所有的小概率事件。

三、数据对整体智能更重要

在5月底的数博会上，李彦宏称“数据不是根本，技术才是王道”。而今天华先胜给出了不一样的答案。

当智东西问及数据与算法的关系时，华先胜更加认同数据的价值。他指出，其实数据拥有两个含义和用处的，第一个是对算法的研发，这个一定要有数据；另一方面智能的产生，本身就是靠数据才能产生的。

数据驱动下的智能，不是算法本身，算法只是为智能这部分提供了一个基础。比如说有个很好的检测算法，就能让我们知道车流的状况，但是如果要优化城市的交通，这一定要有很多数据才能做到，这个时候是数据本身就产生了智能，没有大数据是产生不了智能的。这是一个单体智能和整体智能的区别，单体智能的数据只是为了算法本身的效果服务的，但整体智能中算法的作用就会大大降低。而未来一定是两者结合起来共同发挥作用的。

对话阿里iDST负责人华先胜：解读阿里视觉研究的四大方向

上一篇：小鹏汽车获A轮22亿元融资神州优车领投

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

Blockchain Basics

Daniel Drescher / Apress / 2017-3-16 / USD 20.99

In 25 concise steps, you will learn the basics of blockchain technology. No mathematical formulas, program code, or computer science jargon are used. No previous knowledge in computer science, mathema......一起来看看《Blockchain Basics》这本书的介绍吧!

码农工具