李飞飞:我把今天AI所处的发展阶段称为“AI in vivo” | Google I/O 2017

栏目: 编程工具 · 发布时间: 7年前

内容简介:李飞飞:我把今天AI所处的发展阶段称为“AI in vivo” | Google I/O 2017

李飞飞:我把今天AI所处的发展阶段称为“AI in vivo” | Google I/O 2017

雷锋网 (公众号:雷锋网) 按:在谷歌  I/O 2017 的最后一日,主场馆海岸线圆形剧场迎来了本届 I/O 最具重量级的机器学习讲座:由四位分属不同领域的 AI 女性大牛展开巅峰对话,漫谈 AI 的过去、现在与将来。四位嘉宾分别是 语音识别、计算机视觉、数据可视化和生物计算 领域的顶级 AI 学者与工程师。而本场对话无关技术,纯是几位杰出科学家对各自领域深度学习发展历程的反思,以及对将来趋势的思考。

四位嘉宾是:

  • Francoise Beaufays,谷歌语音识别技术研发带头人

  • 李飞飞,谷歌云首席科学家,斯坦福 AI 实验室负责人

  • Fernanda Viegas,计算式设计(computational design)专家,谷歌 Big Picture 数据可视化部门负责人之一

  • Daphne Kolller,Calico Labs 首席计算官,Coursera 联合创始人

本讲座由谷歌云副总裁 Diane Greene 主持(以下称”主持人“),分为三个环节,每个环节的话题分别对应 AI 的过去、现在与将来。

话题一:AI 技术是如何发展到深度学习时代,走到今天这一步的?

Daphne Kolller: 我认为,深度学习革命让我们得以解决当今各领域的许多现实难题,它让这一切成为可能。

这场革命,是一系列机器学习研究进展的结果——深度学习来临之前,大约有 10 到 15 年相当艰辛的研究,用于研发人工设计的模型。构建这些模型需要大量其它领域的专业知识,以及深入细致的思虑考量。研究人员需要人工雕琢模型的大量细节,由于缺乏数据,往往要用我们的直觉判断作为构建模型的依据。

而当我们得到更多数据,尤其在文字、图像、语音领域,就逐渐开始用数据来替代这些主观洞察力。但是,过去这 10 到 15 年间的技术研究成果,在今天仍然很有价值。这里有两个方面:

  • 在研究方法上,优化算法便是那时发明出来的,是深度学习得以成功的关键技术之一。

  • 另一方面,如今我们一厢情愿得相信,大数据是解决一切的方案。但这仅仅对应部分领域。对其它领域而言,我们掌握的数据量充其量不过是中等,有的甚至可说是小规模。因而, 仍需要在人类直觉和数据之间做平衡,充分利用两者的长处。

李飞飞: 我来稍微谈一谈历史背景。在所有人类的科学领域里,AI 是一门相当年轻的学科,大约有 60 岁。但在我的观点里,AI 启蒙思想的根源,即对于智能的求索,可追溯到人类文明诞生的黎明时期。

大约 60 年前,机器刚刚能处理简单的算术。但以计算机科学之父阿兰-图灵为代表的思想家,已开始提出挑战人类社会的问题:“机器是否能思考?机器是否能拥有智能?那时,马文·明斯基、John McCarthy 等计算机先驱聚到一起,创立了如今的人工智能学科。AI 之父们眼中的 AI,在技术上讲,与今天十分不同。但核心的愿望是一致的:让机器能学习、思考、感知、有逻辑,能开口说话,与我们交流。

AI 已经经历了几波技术发展:从一阶逻辑(first-order logic),到专家系统(expert systems),然后是早期机器学习,再到如今的深度学习革命。

过去的 60 年,我把它称为”in-vitro AI“,或者“AI in vitro”(雷锋网注:可理解为“试管阶段的 AI”)。这一阶段为 AI 研究的基础问题以及众多子学科打下了基石。后者包括机器人、计算机视觉、自然语言处理、语音处理、生物保护学(conbio)等等。这同样是一个研究人员们不断理解数据、寻找 工具 集的过程。

而 2010 年左右是一个分水岭。这时,三个不同领域的进步终于达到了一个前所未有的里程碑高度:统计机器学习领域工具的成熟、互联网和传感器带来的大数据、摩尔定律预测的硬件计算性能提升。 这三者的合力,把 AI 从 “in vitro”阶段,推上了一个被我称为 “in vivo” (雷锋网注:可理解为“胚胎阶段的 AI”) 的全新阶段

“AI in vivo”,是一个 AI 技术向世界做出实际贡献的阶段。当下这个时间点,还仅仅只是个开头——“It‘s just the begining”。我们在谷歌云所观察到的每一个行业,都在数据、AI、机器学习的推动下经历着革命性的转变。在我眼里,这是一个历史性的时刻:AI 终于开始发挥现实影响力,改造无数个行业。

我想要再强调一遍:一切刚刚开始。现在 AI 领域的工具和革命性技术,仅仅是广袤海洋中的几滴水。剩下的可探索空间,即我们能借助 AI 实现的事情,几乎是无限的,再怎么夸大也不为过。对此,如果你感到兴奋激动,或许是应该的——有许多工作等着我们去做,来实现 “AI in vivo”。

李飞飞:我把今天AI所处的发展阶段称为“AI in vivo” | Google I/O 2017

主持人:Francoise,你处在语音识别研究的最前沿。当下,语音识别技术已经普及开来,能否向我们介绍下这一发展历程?

Francoise Beaufays: 当然。12 年前我加入谷歌,那时,我们都想用语音识别技术做点有用、好玩的事。但这相当得难——当时语音的质量完全不能和现在比。因此,我们从极其有限的产品着手,这样识别一个人说的话并不过于复杂,然后一点一点地突破极限。我们需要做的,是打造一个成功的产品,让用户愿意使用;然后以此为基础,不断收集新数据导入模型、不断迭代,每次提高一点点。

按照该思路,我们开发了 GOOG-411,我不知道有多少人还记得它。它是一个手机 APP:你拨打一个号码,它会问你:查询哪个城市或州?回答之后,它接着问:“查询哪家公司?”说出名字之后,它会拨通该公司的电话。请注意,12 年前,没有 iPhone 也没有安卓,大家用的还是功能机。所以 GOOG-411 的功能也很基础。幸运的是,谷歌高层对该技术的前景抱有憧憬,支持我们尽可能得打破技术极限。

当时我们很成功。然后 iOS 和安卓诞生,一切都变了——用户有了视觉反馈。于是我们开始构想其他的 APP 产品,那便是 Voice Searchv用语音进行谷歌搜索。我们开始做语音转录,把麦克风整合进手机功能的各个入口,让用户可以用语音做任何事。

更后来,我们试图把语音识别技术带到家庭场景,比如 Google Home 这样的设备。用语音来处理日常任务,是一个呼声很高的诉求。我们认为智能助手是一个很好的入口。相比用口头命令做简单的事,智能助手可以用日常的自然语言与用户问答,而不是麻烦的键盘打字输入,使谷歌真正成为用户的个人助手。

主持人:Fernanda,你曾表示要让数据可视化民主化。如何才能实现?必要性在哪里?数据可视化分析又是如何进化的?

Fernanda Viegas: 十多年前,我已经在从事数据可视化。当时的情况很不一样:研究非常困难,设备和现在不能比,能获得的数据也很少,大多数并不公开。

这情况逐渐改善,现在,数据可视化已可说是无处不在。比如,媒体也喜欢在数据可视化的帮助下,用统计数字表达复杂的新闻事件。我们喜欢的一个玩笑是: “对于统计,数据可视化是一道毒品” ——你可能都不会意识到自己在做统计,因为数据可视化是如此善于在视觉上找规律、找异常。

数据可视化一直在一条更加民主化的轨道上。长久以来,AI、机器学习有一项重大挑战:如何让我们人类理解超高维数据。这方面,Geoffrey Hinton 和同事们搞出的 t-SNE,堪称是 AI 领域的革命性数据可视化工具。它在数据可视化发展史上是一项相当关键的里程碑。我和飞飞有类似的感觉:我们正处于如何利用数据可视化技术推动 AI 进步的起点。

话题二:AI 在当下面临的技术挑战

Francoise Beaufays: 语音识别从来都是基于机器学习,与更早期无关机器学习的技术没什么关系。 过去三十年间,机器学习技术一直在进化,语音识别也不断进步,其中一个大转折点是神经网络的采用。这距今不到八年,但基于神经网络的语音识别研究在很久以前就已开始。只是由于计算能力的限制,这条路在产生大量成果之后被学界放弃,直到几年前重新采用。这期间,语音识别基于更基础的技术,仍然在发展提升,例如 Gaussian 混合模型。

在技术上,采用深度学习确是一项较艰巨的工作,牵扯到延迟、规模、训练能力等问题。当基于深度学习的语音识别技术在生产环境部署,这打开了一扇崭新的大门,背后是一系列的提升。另外,由于有了强大的计算硬件支持,我们能快速地从一个神经网络架构转换到另一个。因此,我们开始探索 RNN(比如 LSTM)、CNN、基于 CTC 的序列建模等其他模型。简而言之,采用神经网络,为我们开启了在支撑谷歌产品的核心技术上不断创新的新空间。

李飞飞:我把今天AI所处的发展阶段称为“AI in vivo” | Google I/O 2017

主持人:这是用于语音识别的神经网路,我们再来听听能延长寿命、让我们更健康的神经网络。Daphne,给我们讲讲为什么 Calico Labs 需要你这位世界最顶级的分子生物学与机器学习专家之一,你在那做什么?

Daphne Kolller: 很多人可能没听说过 Calico,我们的曝光很少。做个简介,Calico 是最早剥离谷歌,直接归属 Alphabet 的子公司。Calico 的目标是理解衰老,帮助人们活得更长、更健康。

衰老其实是我们所面临的最大的死亡风险,没有之一。这对几乎所有 40 岁之前发生的疾病都成立:当患者一年一年老去,死于该病的风险会指数级得增长,糖尿病、心脑血管疾病、癌症均是如此。

但讽刺的是,没人真正知道为什么。

没人知道为什么在 40 岁之后,每一年过去,都会给我们增加死于这些疾病的风险。为了对此进行理解,我们很有必要研究导致衰老的生物系统机制,从分子层面一直到系统层面。虽然我不认为我们能永生,但也许通过技术手段介入,我们能活得更久更健康。

Calico 早期有一名研究人员,其研究显示: 仅仅某单个基因的变异,就能延长机体 30%-50% 的寿命。 而且,我们不仅会活得更长,还会以更年轻的面貌、更饱满的健康状态生活。

但实现这些需要搞清楚许多尚不明了的东西,还需要收集所有生物系统在所有年龄状态下的海量数据,包括酵母、虫子、苍蝇、老鼠、人——为什么这些不同物种在分子层面发生着同样的事?

幸运的是,过去二十年间,科学家们发明出一整套衡量机制与方法,收集数据并试着帮我们理解衰老中的机体。这包括基因测序技术、微流体、跟踪设备,记录机体如何随衰老发生变化。但是,没人能把这些不同测量机制所产生的、从微分子层面一直到人口学层面的数据整合到一起。

如何整合所有信息,精确描绘出人体如何衰老的过程?

这就需要生物学家和机器学习专家之间的合作,后者能建立模型,整合所有信息。

我属于少数极幸运的人,能在该领域的萌芽时期就投身进来:在 2000s 年早些时候开始从事计算生物学(computational biology)。如果说,我的机器学习算是母语造诣,我的生物学就在“流利”水平。这使我能够与 Calico 的科学家们共事, 在两门学科之间建立真正的合作纽带,开发能结合两个世界的优点——大数据和人类直觉的模型。

由于生物机体的复杂度实在太高,即便是今天这个量级的数据,我也不认为仅用数据就能重建生物体从头到尾的完整模型。正如我在讲座的开头所讲:数据,和顶级科学家的直觉,我们都需要;用以最终建立对衰老的深度理解,并预测有效的干预方式。

李飞飞:我把今天AI所处的发展阶段称为“AI in vivo” | Google I/O 2017

主持人:下面聊聊计算机视觉(CV)。飞飞,有次在  TechCrunch,你说 CV 是 AI 的杀手级应用,你想表达什么?你一直提倡的 AI 民主化又是什么意思?这跟云计算有什么联系?

李飞飞: 我当时是想推动更多人认识到这一点。我坚信这一点。当时的原话是: “很多人问 CV 的杀手级应用是什么?我会说:CV 本身就是杀手级应用,AI 的杀手应用。”

我会这么说,有两个理由:

  1. 五亿四千万年前,生物进化史上发生了浓墨重彩的一笔:由于某些不知名的原因,地球上的物种种类从极少,一下子爆发为极多。这被看作是进化史上的宇宙大爆炸——被称为寒武纪大爆发。对其背后的原因,生物学家迷惑了许多年。直到最近,一个非常有说服力的理论浮出水面。这个猜想是:那时,生物进化出了眼睛。一下子,动物的生存变得主动:有了猎食者,有了被猎食者,整个物种进化轨迹从此天翻地覆。

    今天,人类是最智能的视觉动物。大自然把我们脑容量的一半都分配给了视觉图像处理,正是由于其重要性。

  2. 至于第二个理由,据估计,互联网上超过 80% 的内容,为视觉内容。另外,传感器收集的第一大数据形式,是由可见光或不可见光组成的图像数据。无论在哪里,对于公司、消费者来说,以像素形式出现的数据都是最珍贵的。

和语音识别类似,有了深度神经网络之后,CV 实现了多项突破和长足进步。在我看来,从 2010 到 2017 的七年间,CV 最主要的进步发生在基础的感知任务领域(perception task):物体识别、图像标注、物体检测等。我们也已经有了应用产品——谷歌照片(Google Photos)、自动驾驶汽车的行人检测系统等。

我认为,下一波对 CV 的投资,将集中于 “Vision+X”,即 CV 和其他领域的结合应用。比如说,视觉在沟通、语言中是如此重要,CV 和语言的结合,会非常有意思。医疗、生物领域的视觉应用更不必说。机器人是另一个有无限潜力的 CV 应用领域。人类研究机器人的历史几乎和 AI 一样久,但现在,机器人仍处在一个非常原始的阶段。究其原因,这在很大程度上是由于其原始的感知系统(想想寒武纪大爆炸)。

简而言之,我的确认为视觉是机器智能最重要的构成要素之一。

话题三:AI 在将来有什么趋势?有哪些可供展望的愿景?

李飞飞:我把今天AI所处的发展阶段称为“AI in vivo” | Google I/O 2017

主持人:我们时间不多了,Fernanda,能否讲讲你眼中数据可视化的未来在哪里?

Fernanda Viegas: 当然。顺着刚才飞飞的思路,既然人类有这么复杂的视觉系统,我们不妨用它来理解机器做的事。机器学习运行于海量的数据、统计数字、概率,在某种意义上,可视化是帮助我们理解这些东西的秘密武器。

为什么我们应该重视数据可视化?这有三点:

  • 可解释性。你是否能解释模型输出的东西?

  • 漏洞可修补性。更好地理解模型,能帮助你修补漏洞。

  • 教育。可视化在机器学习教学中扮演了重要角色。另外,如果我们利用可视化更好地理解了机器学习系统,我们能否从这些系统中学习,提升职业水平?

最后,我想讲一个有意思的例子,我们用数据可视化发现了机器学习系统中原本并不知道的东西。前段时间,谷歌实现了 zero-shot 翻译,即谷歌翻译能处理未遇到过的语言组。研究人员对此产生了一个疑问:该系统的多语种数据空间是按照何种规律分布的?比如说,数据是按语种划分?还是,系统把不同语种混到一起,“学到”了一些语法、语义的规律?

于是,我们开发了一个数据可视化工具来进行查看。结果发现,不同语种但相同语义的句子,组成同一个簇。不同句子形成一个个不同的簇,而无分语种。某种程度上,这可以说是世界通用语言的雏形,我们把这成为“interlingual”,即“跨语言的”。另外,我们发现,哪些相对更隔离的簇,都是翻译质量不高的语句。这告诉了我们,数据空间的几何分布是有涵义的。

目前为止,AI 仍让人感觉到强烈的工程导向属性。我很期待在将来,艺术家、UI 设计师、科学家会为 AI 带来什么,有哪些我们全未想到过的可能性?这些会很值得探索。

主持人:Francoise,我想问你数据可视化会如何帮助语音识别(笑)。但我同样想问你:如今数据越来越复杂,比如训练模型的标记数据,还有越来越多的个性化,语音识别技术在走向何方?又有哪些令人兴奋激动的挑战?

Francoise Beaufays: 在语音识别领域,每当遭遇一个新难题,我们必须要专注在它上面。我们开发 Youtube 儿童频道的时候,就必须要专注于孩子的声音——他们的说话方式、音域、断句方式都和成年人不一样。最终,我们找到了把学习成果加入通用模型的方法。因而 Google Home 现在能与儿童正常交互。

对于我们而言,Google Home 又是一个新环境,我们需要收集新数据。有了新数据之后,将其导入模型进行训练就变得简单直接。但是,第一次发布 Google Home 的时候,并没有用户数据。因此,我们做了许多模拟:采集数据,添加不同类型的噪音,在数据上做不同类型的混响(reverberation)。事实上,我们用的数据足以称得上是海量。我们转录了数万小时的语音,然后与模拟叠加增殖,最后导入模型的数据,相当于是数个世纪的语音。

世界上有如此之多的语言,语言学家说,光是使用人数在 10 万人以上的,就有 1342 种。我们如何向如此之多的语种服务?这是一个需要在机器学习领域发挥很多创造性的难题。

李飞飞: 我相信 AI 是第四次工业革命的驱动力量之一。我从一个哲学家那里听来的、一句我最喜欢的话是这样的:“独立的机器价值观并不存在,人类价值观就是机器价值观”。我很期待 在将来,来自各门学科的技术专家在 AI 领域发挥所长,只有这样,才能真正为全人类开发 AI,而不是为一部分人而研发。

Daphne: 作为一名顶级机器学习专家,如果在五年前,有人问我五年后机器是否能像人类一样准确用文字注解图像,我会说不可能,二十年后还差不多。但由于飞飞等科学家的努力,这一天比我预想的早很多就到来了。

我离开 Coursera 重回生物领域的原因,是因为我认为生物技术现在已经到了指数级增长曲线的那个拐点。如果我们看看人类基因测序的历史趋势,其指数每七个月就翻倍,增长速度是摩尔定律的两倍。按照该趋势预测 2025 年的接受了基因测序的人口数量,保守估计是 1 亿,正常估计是 20 亿。而这只是测序,还没有包含 RNA、蛋白质组、人体成像、细胞成像等等。

人体,是人类迄今所遇见的最复杂系统。我认为,我们正处于理解这一系统的开端——到底是什么让我们活着?什么让我们迈向死亡?我认为,有今天这一量级的数据以及不断进步的机器学习技术,我们完全有机会用 AI 革新科学。

雷锋网版权文章,未经授权禁止转载。详情见 转载须知

李飞飞:我把今天AI所处的发展阶段称为“AI in vivo” | Google I/O 2017

以上所述就是小编给大家介绍的《李飞飞:我把今天AI所处的发展阶段称为“AI in vivo” | Google I/O 2017》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

Bulletproof Web Design

Bulletproof Web Design

Dan Cederholm / New Riders Press / 28 July, 2005 / $39.99

No matter how visually appealing or packed with content a Web site is, it isn't succeeding if it's not reaching the widest possible audience. Designers who get this guide can be assured their Web site......一起来看看 《Bulletproof Web Design》 这本书的介绍吧!

HTML 压缩/解压工具
HTML 压缩/解压工具

在线压缩/解压 HTML 代码

RGB转16进制工具
RGB转16进制工具

RGB HEX 互转工具

Markdown 在线编辑器
Markdown 在线编辑器

Markdown 在线编辑器