对话阿里iDST负责人华先胜:解读阿里视觉研究的四大方向

栏目: 编程工具 · 发布时间: 7年前

内容简介:对话阿里iDST负责人华先胜:解读阿里视觉研究的四大方向

智东西(公众号:zhidxcom) 文 | 寓扬 在2017云栖大会·上海峰会上,阿里iDST(Institu […]

智东西(公众号:zhidxcom)

文 | 寓扬

在2017云栖大会·上海峰会上,阿里iDST(Institute of Data Science&Technologies,数据科学与技术研究院)视觉计算负责人华先胜接受了智东西的专访,就阿里云视觉计算的应用领域、深度学习、未来技术布局、数据与算法的关系等问题进行讨论。

阿iDST曾被称为阿里巴巴最神秘的部门,它类似于谷歌的Google X实验室,从事一些人工智能、机器学习等前沿领域的科学研究,而不注重短时的商业价值。

而华先胜就是iDST中的一员,他于2015年加入阿里巴巴,于2016年7月加入阿里云人工智能研究机构iDST科学家团队,负责阿里云视觉计算团队的研发工作。此前,华先胜在微软工作了14年,是视觉识别和图像搜索领域的国际权威学者以及IEEE Fellow成员。

一、视觉计算的四大应用方向

华先胜在2001年加入微软,就一直在做视觉识别、图像搜索这个方向。他们当时做了一项技术是把视频浓缩成三五分钟的精华,还配了音乐,这样回放的时候会比较方便,而这也是当时的十二大创新之一。后来由于视频分析的难度较大就转做了图像搜索。而在进入阿里巴巴的第一年,华先胜也是在搜索事业部,就是为了解决以图搜索商品的问题。

但随着技术的发展,尤其是深度学习技术的出现,今天已经有机会对视频里具体的语义进行分析了。当谈到深度学习时,可以观察到华先胜眼神中充满着光芒,话语里充满着肯定。华先胜谈到,目前有两种方法做视觉分析,一种是抽帧来做,图像技术的照片和视频有点不一样,对视频而言是一个连续的动画过程。另一种方法是从视频里面做,可用于追踪,比如在阿里的城市大脑中的识别,当两辆车相撞发生了交通事故,通过对这个片段的追踪,就能够识别发生了什么事情。

而在视觉计算的应用领域上,华先胜谈到了交通、营销、医疗图像分析以及搜索等几个具体的方向,而目前以交通视频为主,将来会逐渐扩展到安全、环境等更多领域。其一在交通视频上,从技术上来说会涉及好几条线,比如是监控的还是个人图像视频,通过对交通视频的监控和分析,就可以知道有什么事件发生了,可应用于追踪、识人等许多方面。

其二可用于精准营销。比如在一个电影里面投放广告,广告的内容肯定要相关,而这就需要对视频内容有所理解。再比如这个人在打瞌睡,你可能这个场景中做一个提神醒脑的广告会更好,这就是以内容为主的识别。华先胜表示,个人、媒体、电影以及网络视频之类可以放在一起来做,它们在技术上是差不多的,只是有时候问题的难度不太一样。

其三是视觉诊断,可应用到医疗图像分析和工业诊断中。华先胜谈到,医疗是阿里云的一个方向,他们也在跟医疗部门进行合作。其实可以把这个归到一个大类里面叫视觉诊断,包括人的诊断、设备的诊断、生产线的诊断等等。如工业生产线上的次品检测,包括生产车间的设备状况,这些过去都需要人来看,一是耗费人力,另外可能环境也不是太好,而有个摄像头可能会解决很多问题,从而大大减少人力。

其四是搜索。它本身是一个技术也是一个场景,比如个人视频里用得到,医疗里面也用得到,它更文字搜索引擎不一样,它是视觉信息,这也是阿里巴巴所擅长的。比如说,在城市一辆车要找它的轨迹,你可以用手机来搜,有个照片也可以搜,或者一张照片搜一个电视剧之类的,这些都是视觉搜索,并且是偏分析识别方向的。另外一个是反过来的,是要生成一些识别信号,比如说生成一个艺术图片,或者根据视频生成一个广告,而这种广告基本不影响体验,会是一种比较优雅的广告,这也是它能够带来商业价值的地方。

二、把神经网络逼到死角

在谈及到深度学习技术时,华先胜对它充满了热枕,他认为深度学习在视觉领域几乎横扫过去的所有传统方法。

他谈到,其实很多传统的研究机器学习的人不能接受深度学习,即为什么这个理论没有完备就可以做的那么好,而原来的传统机器学习有很好的理论,它可以推导,而深度学习有了假设也推不好。很多人觉得深度学习就是随便乱试,其实这需要很多的经验和分析在里面,你这个网络怎么设计,你才能达到你的目的,尤其是你怎么去逼迫你的视频网络达到目的,但这确实是有规律可循的。另外还要有一个好的策略,甚至有一些样本和数据,样本本身也是你最后能不能做好的一个关键因素。

深度学习还有一个好处,你把这个网络设计出来以后,用很多的手段去把它调到好的状态,有很多手段可以让这个网络收敛到你想要的地步,尽管不是所有的问题都能做到,但是你可以去做这件事情,通过训练的策略等很多手段,就相当于说你要让他有很多的目标,把它逼到死角,然后他就能够收敛到你想要的目标。

此外,视觉计算团队也在布局一些未来的技术,如在城市大脑中,如何在一个复杂场景下进行时空异常检测。目前我们有近期的解法,这个可以用机器学习对图像视频做初步的分解,比如说车、人、车流的情况分解,然后通过这些对异常进行检测。那能不能上升到更高的高度,我们有这方面的尝试,但还没有到使用的地步,这种异常情况也并不多,但缺少一个通用的办法来解决所有的小概率事件。

三、数据对整体智能更重要

在5月底的数博会上,李彦宏称“数据不是根本,技术才是王道”。而今天华先胜给出了不一样的答案。

当智东西问及数据与算法的关系时,华先胜更加认同数据的价值。他指出,其实数据拥有两个含义和用处的,第一个是对算法的研发,这个一定要有数据;另一方面智能的产生,本身就是靠数据才能产生的。

数据驱动下的智能,不是算法本身,算法只是为智能这部分提供了一个基础。比如说有个很好的检测算法,就能让我们知道车流的状况,但是如果要优化城市的交通,这一定要有很多数据才能做到,这个时候是数据本身就产生了智能,没有大数据是产生不了智能的。这是一个单体智能和整体智能的区别,单体智能的数据只是为了算法本身的效果服务的,但整体智能中算法的作用就会大大降低。而未来一定是两者结合起来共同发挥作用的。

对话阿里iDST负责人华先胜:解读阿里视觉研究的四大方向

上一篇: 小鹏汽车获A轮22亿元融资 神州优车领投


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

汇编语言(第2版)

汇编语言(第2版)

王爽 / 清华大学出版社 / 2008-4 / 33.00元

《汇编语言(第2版)》是各种CPU提供的机器指令的助记符的集合,人们可以用汇编语言直接控制硬件系统进行工作。汇编语言是很多相关课程(如数据结构、操作系统、微机原理等)的重要基础。为了更好地引导、帮助读者学习汇编语言,作者以循序渐进的思想精心创作了《汇编语言(第2版)》。《汇编语言(第2版)》具有如下特点:采用了全新的结构对课程的内容进行组织,对知识进行最小化分割,为读者构造了循序渐进的学习线索;在......一起来看看 《汇编语言(第2版)》 这本书的介绍吧!

JS 压缩/解压工具
JS 压缩/解压工具

在线压缩/解压 JS 代码

随机密码生成器
随机密码生成器

多种字符组合密码

HSV CMYK 转换工具
HSV CMYK 转换工具

HSV CMYK互换工具