隐藏的学霸之魂:Zero-Shot Learning如何打破“零起点”的封印?

栏目: 数据库 · 发布时间: 7年前

内容简介:图片来源@视觉中国文|脑极体

隐藏的学霸之魂:Zero-Shot Learning如何打破“零起点”的封印?

图片来源@视觉中国

文|脑极体

2018年还剩不到10天,回顾一下今年CV(Computer Vision,计算机视觉)领域的进展,在技术上并没有迎来什么革命性的新突破。

几个头部企业的业务重点,除了强化现有算法的精度,更多还是将精力投掷在商业布局上。

似乎每家公司都在为这个看得见的“赛点”争分夺秒地发掘新应用场景。

不过,还是有很多新技术的进步值得我们专门用一篇文章来说一说,比如今天要讲的Zero-Shot Learning。

毕竟,当场景被开发到极限,大家就又回到了技术的起跑线。

什么是ZSL?

零样本学习zero-shot learning,是最具挑战的机器识别方法之一。2009年,Lampert 等人提出了Animals with Attributes数据集和经典的基于属性学习的算法,开始让这一算法引起广泛关注。

之所以如此重要,因为其迥异于传统图像识别任务的思考方式。

从原理上来说,ZSL就是让计算机具备人类的推理能力,来识别出一个从未见过的新事物。

举个例子,我们告诉一个从没见过斑马的小朋友:“斑马是一种长得像马,身上有黑白色条纹的动物”,他就可以很轻松地在动物园里找出来哪个是斑马。

隐藏的学霸之魂:Zero-Shot Learning如何打破“零起点”的封印?

可是,在传统的图像识别算法中,要想让机器认出“斑马”,往往需要给机器投喂足够规模的“斑马”样本才有可能。而且,利用“斑马”训练出来的分类器,就无法识别其他物种。

但是ZSL就可以做到,一次学习都没有,只凭特征描述就识别出新事物,这无疑离人类智力又近了一步。

那么,这种“天秀”到底是怎么工作的?

简单说的话,就是利用高维语义特征代替样本的低维特征,使得训练出来的模型具有迁移性。

比如斑马的高维语义就是“马的外形,熊猫的颜色,老虎的斑纹”,尽管缺乏更多细节,但这些高位予以已经足够对“斑马”进行分类,从而让机器成功预测出来。

隐藏的学霸之魂:Zero-Shot Learning如何打破“零起点”的封印?

这就解决了图像识别长久以来的问题:如果一个事物从来没有在现有数据集中出现过,机器应该如何学习和识别它。

听起来是不是很爽很智能的样子,实际上也确实如此!

ZSL的“优越感”来自哪里?

在CV领域的顶会CVPR 2018 会议中,一个关于使用鉴别性特征学习零样本识别的论文,被认为代表了该领域当前的最佳水平。

之所以受到如此重视,主要源于近年来零样本学习(ZSL)在目标识别任务中的大显身手。

由于ZSL所挑战的现实情境前所未有地苛刻,使其具备了影响其他图像识别效果的关键能力。

现有识别技术大多集中于监督学习,所以需要不断推出更大的数据集,谷歌曾介绍说他们在用300Million的3D图片进行训练。而且,每个领域还需要各自的数据集。

这种情况下,全部进行数据标注的工作量也变得很大,很多新生事物更是想标注都无从谈起。这样在部署端的效率和成本就成了产业的“不可承受之重”。

那怎么办呢?科研人员只好努力让机器学会“花更少的钱,办更多的事”。

以腾讯AI Lab的研究为例,其“Diverse Image Annotation”,就是充分利用标签之间的语义关系,用少量多样性标签来表达尽可能多的图像信息,实现自动标注。

ZSL则更为极端,要在一个样本都没有的前提下“空手套白狼”,这种极限挑战,就给技术界带来了新的活力。

首先,ZSL降低现有算法对数据集的依赖和标注的压力,有利于提升机器视觉技术的亲和力及部署效率;

另外,现在产业端对缩减算力需求的呼声日渐高涨,ZSL清晰有效地指向了可行的解决方案;

更重要的是,ZSL解决的不仅仅是视觉问题,更与NLP的发展相辅相成。根据模糊高维的语义描述去进行识别,对机器的要求不仅仅是简单分类,还要理解特征一些人类的高级知识,比如一种艺术作品的风格、一种特殊的情绪等。找到这种语义上的联系,将机器视觉与NLP技术联合在一起解决问题,ZSL激发的技术想象很是有趣。

都说“数据是AI的燃料”,那没有燃料是不是就注定GG? ZSL表示可以续命,就是这么得瑟!

从0到1:ZSL和OSL有何不同?

这时,想必很多关注技术趋势的同学可能已经发现了,零样本学习与少样本学习(OSL,One-Shot Learning)在最终的应用成果上,似乎作用很相近啊。

比如说,都指向了高层次的认知问题。只要给OSL一张“斑马”的图片,它就能很高效地将它从其他动物中鉴别出来。背后靠的也是从很少的标签中学习、分类和推理的能力。

在应用端,因为都不依赖庞大的数据集,两种模型都能帮助产业的AI识别实现降本增效。

按理说,既然零样本是少样本的子集,那么是不是可以直接套用ZSL的模型来解决OSL的问题呢?

其实是可以的。毕竟“从没见过”与“见过一次”相比,“从0到1”的技术难度要求更高。

不过,二者并不能轻易地被替代或划等号,各自的研究都很有意义。

最大的区别在于, ZSL挑战的是在相似语义中完成知识迁移,而OSL需要解决的是语义补全的能力,即如何利用唯一的样本学习到更多的特征。

在实际应用中,关键能力的不同,赋予了它们不同的“必杀技”。

比草原广阔:ZSL的应用场景

那么,ZSL到底能干些什么呢?

前面我们说过,目前产业界应用深度学习最大的痛点,无非是爱上一匹野马 (泛化能力),可是家里没有草原 (高质量数据集) 。也并没有企业会为了几匹野马,就不计成本地承包所有草原。

而ZSL能够提供的想象空间,就比“草原”大得多了:

1.图像自动标注、处理。

人工标注代价高、速度慢,一旦ZSL被应用,其语义理解和迁移能力,借助知识图谱的辅助(如属性、文本描述等),把不同的视觉联合在一起进行系统观察,可以自动完成数据的识别和标注工作,而且结果的准确性不低于人工。

2.未知或生僻语种翻译。

在电影《降临》中,美国的语言学家通过艰难地特征推断,完成了与外星人的沟通。未来,这件事可以由机器来代劳。比如说一些样本很少甚至早已不可考的语言(比如乌伯克语),通过ZSL系统就可以自动完成翻译过程,实现宇宙的love&peace。

隐藏的学霸之魂:Zero-Shot Learning如何打破“零起点”的封印?

3.新类别的图像合成。

ZSL的学习目标是识别新事物,一些新类别的图像合成,完全可以通过ZSL被创造出来。比如还原已经灭绝的物种。也许未来你在《侏罗纪》系列中看到的恐龙,就是机器“画”出来的。

4.视频识别。

目前,越来越多的数据是视觉与文本信号共同出现,比如综合性视频网站,视频、音频、字幕、弹幕、评论等多模态信息都有,想要挖掘它们之间的相关性,就依赖于ZSL的宏观预测能力。

总而言之,让机器能够像人一样凭借“只言片语”做出推理和判断,是一个很有用的功能。

从入门到放弃:ZSL的问题依然顽固

既然这么牛,为什么ZSL一直不温不火呢?至少没有像其他深度学习算法一样成为“群宠”。主要原因还是在于几个“牛皮癣式”的顽疾:

一是ZSL的效果依赖于相似模态的信息。在训练时如果训练集和测试集的类别相差太大,比如一个里面全是动物,另一个里面全是家居,这时让ZSL分析二者的映射关系就太困难了,就很容易出现属性漂移的“强偏”问题,难以预测出正确的结果,导致ZSL的性能表现大打折扣。

二是缺乏足量的专业定义和描述。ZSL虽然不需要大量的图像数据集,但需要进行特征描述。这方面人工比机器分类效果更好。但目前还缺乏足够的专业人员进行协助,NLP自身的发展也尚不足以满足ZSL的需要,使得整体进程相对缓慢。

这些桎梏不解决,ZSL即便具备从零起点到学霸的潜力,也只能入宝山而空回,被不如它的算法抢走工作机会。

回顾一年来CV技术的产业化进程,算得上是红红火火恍恍惚惚。

我们可以想象,未来一两年,从个人智能终端到城市的眼睛,机器视觉将无处不在。

一面是应用场景百花齐放异常火热,一面像ZSL这样的潜力股又处在相对停滞的状态,核心问题都没能取得突破性的进展。

在新年这样承前启后的阶段,或许是时候给ZSL许一个未来了。

更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App

隐藏的学霸之魂:Zero-Shot Learning如何打破“零起点”的封印?


以上所述就是小编给大家介绍的《隐藏的学霸之魂:Zero-Shot Learning如何打破“零起点”的封印?》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

The Black Box Society

The Black Box Society

Frank Pasquale / Harvard University Press / 2015-1-5 / USD 35.00

Every day, corporations are connecting the dots about our personal behavior—silently scrutinizing clues left behind by our work habits and Internet use. The data compiled and portraits created are inc......一起来看看 《The Black Box Society》 这本书的介绍吧!

MD5 加密
MD5 加密

MD5 加密工具

UNIX 时间戳转换
UNIX 时间戳转换

UNIX 时间戳转换

HEX CMYK 转换工具
HEX CMYK 转换工具

HEX CMYK 互转工具