内容简介:DeepNLP 科普贴:既是地下的富矿,也是“魔鬼”的居所
很长时间当中,人工智能与计算机科学、语言学之间有一个交叉学科始终被市场热切关注,那就是NLP(natural language processing),即自然语言处理。
这项技术的基本内涵,是指人类与计算机之间用自然语言进行有效通信的各种理论和方法。 说白了就是如何让机器听懂人类说什么,以及如何让机器说人类能听懂的话。 这两个方面也被称为NLP的两个核心关键领域:自然语言理解和自然语言生成。
回想一下,我们可能会发现NLP对于推动人工智能产业发展有着举足轻重的作用。因为它可以直接作用于机器翻译、语音输入等领域。相比于人工智能和机器人领域那些“只闻其声不见其人”的算法和神经网络,翻译和语言输入法可是货真价实的商业应用。
所以作为这些应用领域的主角,NLP一直在人工智能产业化中扮演着重要角色。但有很多人认为,NLP在整个AI体系中是相对孤立的,应用范围也相对狭窄。
但随着学界一种新的跨界思维开始流行起来,这种情况仿佛有了改观:将流行的深度学习技术(deep learning)与NLP相结合,打造出更深度自然语言处理(DeepNLP)成为了火爆的AI概念。
而真正令人在意的是,这个概念背后指向的应用性近乎于是无限广泛的,甚至有人认为人类将史无前例地打开语言这个魔鬼迷宫,将人类的某些能力拉升到新的维度。
究竟有没有这么神当然不好说,但DeepNLP的潜在价值绝对不凡。
为了让大家更好理解DeepNLP的涵义与应用性,我们尝试尽可能抛弃掉所有函数和语言学公式,并且用一种比喻来理解这项技术的真实情况:挖矿。
假设DeepNLP是一座深埋在地下的富矿,那么想要得到它首先要翻越大块盐碱。而矿藏的最深处,可能就是魔鬼的居所。
从NLP到DeepNLP:人工智能不仅可以翻译、速记、问答
先来解释一下NLP与DeepNLP的不同之处。
自从上世界八十年代NLP概念被提出以来,经过了长时间的演进和迭代。其技术本身的变化非常显著。但其基本运作模式却是相同的。一般来说,NLP体系的工作对象都是人类语言。一段语言样本进入NLP系统之后,将经过系统的符号化处理,将人类语言改写成运算语言;然后通过运算能力进行模块化生成,根据不同目标进行语言处理;最终,生成的模块输出为结果,整个语言处理任务就完成了。
这样的语言处理体系,按照目的来区分一般有三种应用:一是语音文本转化为文字文本,也就是我们今天常用的语音输入;其二是不同语言之间的转化,也就是机器翻译;第三种是语言文本理解后给出相应回馈,也就是siri这样的聊天机器人。
NLP的作用,基本就是在这三种应用当中让语言处理更加自然、合理。而随着深度学习技术的不断发展,NLP似乎可以迎来一场全面的革命。
NLP长久以来存在的问题,就是人类的不同语言体系确实太复杂了,经典计算网络根本无法完全处理。尤其语义、语言情感、语言氛围以及歧义、多义等内容,更是难以被机器理解。
而目前火爆的深度学习技术,则可以用非监督式或半监督式的特征学习,来自主提取高效算法替代传统算法。换言之,深度学习中的某些技术或许可以让NLP自主理解人类语言中的具体特征和复杂语言材料。这就给NLP的革命打开了一线遐想。
事实也确实如此,随着卷积神经网络、递归神经网络、迁移学习等技术的成熟,NLP可以主动理解的算法越来越多。比如对关键词的归纳、对句子上下文关系的理解,以及通过训练结果去自主理解其他语料和语言情况。
总之,深度学习技术加上NLP,把人工智能理解人类语言推向了理论上的新高度。甚至有学者提出了DeepNLP这个新概念。加入深度学习的NLP体系,可以在表达适配度,可训练性,泛化性,模块化、可迁移性等领域上较比原有NLP具有强烈的优势。
而所谓DeepNLP的美梦成真,是从一些新 工具 投入使用开始的。
发现新矿层:词向量等思维模块带来的冲击
这一部分细说起来可能会有些枯燥生涩,但事实上这部分对于理解DeepNLP带来的商业可能是至关重要的。所以我们还是要简单聊一下。
话说自然语言处理的逻辑,是将人类语言转化为运算语言。但在传统计算模式下的语言转化,是将不同词汇转化为相互间完全没有联系的符号编码。
这种方式对于机器运算本身没什么问题。但对于让机器语言更好地贴近理解人类语言就会有很多障碍。比如带来的运算量非常复杂,一旦需要对语义、句法、语言回指这样的复杂问题进行计算,就会难以为继。
另一方面,这种转化模式之后,词、句、语法间是完全没有联系的。这也就难以让机器学习人类语言间的联系,产生自主理解的学习训练效果。
而有一些新技术的出现,正在改变这种现状。比如一种叫做“词向量”的思维模块,这种技术把人类语言转化为机器语言时,对每一个词进行了有联系的界定。即将词汇处理成向量,并且向量间的相对相似度和语义相似度是相关的。
比如说人,会关联着男人、女人、老人、成年人等词。这些词相互有联系,并且可以被机器理解。这也就将人类语言体系重新展现在了机器面前,给了机器学习全新的理解方式。
词向量只是DeepNLP技术中的一种解决方式,并且各种词向量也在不断进化当中。这些让机器重新理解人类语言的技术,可以被视作全新的探测器。有了这些工具,语言应用的富矿就暴露在了人类面前。
潘神的迷宫:DeepNLP的技术盐碱地
当然了,就像深度学习在众多领域的应用一样。DeepNLP达成应用也绝非朝夕之功,在开始近乎癫狂的应用想象之前,我们还是要泼一盆冷水。
虽然帮助机器深度理解人类语言的工具和技术越来越多,但语言这个神奇的王国依然保留着大块处女地。目前的精神网络和深度学习算法,还有大量的语料和语言问题无法处理。这就像我们知道某处深山中有大量金矿,但勘探队与其之间依旧隔着大片的盐碱地和坚硬岩石。
比如说语言歧义性问题,就是目前的词向量、词嵌入技术的“噩梦”。一个词可以有很多种意思,是人类不同语言的“通病”。而人类理解这些多义词基本依靠对语境和言语情感的理解。但机器学习对人类语言进行重新编码的时候,却无可避免地将同义词进行错误编码。甚至从而产生对整体语义的歧义理解。
再比如不同语种的问题。字母文字和表意文字之间的逻辑、结构和语境是完全不同的,甚至近似语言之间的语法结构也可以截然不同。深度学习体系追随的是语法内部的逻辑体系,而追寻语言本身的通路,在跨语种时可能出现巨大的障碍。
还有一个问题,是DeepNLP究竟如何训练。语言的复杂性,让复杂处理后的语言结果很难被判定。一种判定结果也很难成为其他语言处理结果的指标。因此训练样本的缺少适配性,让弱监督与无监督的NLP非常困难。
当然了,问题该有是有,但并不妨碍我们看到DeepNLP的宏大价值。语言这令人着迷的东西,如果真正为人工智能所掌握,带来的效果近乎没有尽头。
越过山岩之后的富矿:DeepNLP的应用甜梦
DeepNLP的应用价值可以非常复杂,如果算上与其他智能体系结合的应用场景,那近乎是个无穷数。但这里可以基本推测几个DeepNLP应用场景,相信大家就会明白为什么将之称为“富矿”。
一、复杂语言目的提炼与反向生成:通过循环神经网络与卷积神经网络,NLP提取复杂语言材料的核心概念将成为可能。这个能力的作用非常多,比如全面接管客户服务。而复杂语言提炼还可以重新定义模糊搜索和电商搜索。人只需要描述自己对信息或者商品的需求,NLP就可以自主提炼并进行精准定位。
而这个能力的反向生成也十分重要,深度学习体系可以帮助NLP根据人类需求自主生成文字语言材料,就预示着根据某个需求进行文本与语音创作成为可能。通过人类语言训练反向影响AI写作,也是一个十分有意思的破局思路。
二、基于语言的逻辑推理与情感判断:通过对人类语言环境中的复杂关系进行迁移学习,可以达成另外一些有意思的应用可能。比如让机器学习到人类语言中的逻辑和情感。先不提是否赋予机器这些东西,至少这将有机会让机器从人类的语言中预测结果,达成机器推理甚至情感判断。
从听懂你说话的机器人,变成能够预测你目的、读懂你的情绪的机器人,显然是一场巨大的商机。
三、文本关系的提取与分类:DeepNLP的另一个主攻方向,是对文本关系的理解。从语言环境、语位素到语言使用习惯和语言情感,人类的语言其实根植于无数文本关系之中。如果不能理解这些关系,那么AI就永远是只能进行简单交互的机器。
而通过深度学习技术进行自然语言处理,却可能让机器理解这些关系。于是复杂的文本翻译将成为可能,整本书的瞬间翻译似乎也不是难事。而方言、发声问题下的人机语音交互可能达成。当然了,这都仅仅是这个技术达成所带来应用的一小部分。
四、图像的识别与描述:通过对语言材料的迁移学习,让机器读懂人类通过双眼与自然界间的交互,也是一个充满想象力的区域。而循环神经网络等技术正在帮助NLP打开这种可能。通过反复训练AI阅读人类对图像的描述,机器将生成自主描述图像、归类解释图像的能力。
这让AI拥有了可以自己看东西,并转化为人类语言介质的能力。通过摄像头,机器将可以随时理解实物并进行分类汇总。这首先让人类的公共安全警报、搜救、探测事业有了彻底改革,更深处或许将指向机器对自然万物的自我解读。
这些应用听起来都非常魔幻,而这正是DeepNLP的可怕之处。一旦高强度自主学习的NLP与人类信息接入,那绝不是若干应用所能描述的技术变革。
矿石之外的石油:DeepNLP结合大数据
在开采DeepNLP这座矿山之外,我们显然能够发现这项技术与大数据体系结合的奇妙化反。这或许将在矿井之外再打开一座油田。
首先要知道,目前大数据资源中的很大一部分,都是以人类语言作为基本单位的。这些数据指向着多种多样的目的和结果,但其借助人类语言的特点却是相同的。在这一点上,原本普通廉价的人类语言却可以成为DeepNLP非常有效的训练材料。
而反过来说,DeepNLP技术的成熟,也可以帮助人类重新理解和使用已有的大数据资源。比如用户对某一产品的使用体会数据。原本的数据判别系统只能推测出满意级别、改进点等几个数据。因为它的逻辑是提取关键词和打分。而这显然就忽视了用户的个体性。通过DeepNLP去处理客户数据,或许可以判断每一个用户的受访环境、受访回答真实性,甚至根据语气和描述推断出用户没有提到的产品改进建议。
这里有一个逻辑推演,那就是在足够成熟的DeepNLP体系、足够大的数据承载量以及足够强大的运算能力(比如相对成熟的量子计算)支撑下,将有可能对人类的每一句话进行推演和预测,推断人类生活中每一个细节的原因与结果。电影《少数派报告》中的预测犯罪机器人,或许就是以此为科学解释。
语言迷宫,是人类长期以来自身都无法破解的牢笼。一个优秀的演讲者、魅力十足的推销员、套路诡谲的骗子,往往有无法解释的能力达成目标。而依靠的没有其他东西,就是语言。一旦这种能力为AI所获得,释放出的当然有数不胜数的机遇财富,但同时出笼的,或许还有一位名唤“语言”的恐怖魔鬼。
更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App
以上所述就是小编给大家介绍的《DeepNLP 科普贴:既是地下的富矿,也是“魔鬼”的居所》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
ANSI Common Lisp
Paul Graham / Prentice Hall / 1995-11-12 / USD 116.40
For use as a core text supplement in any course covering common LISP such as Artificial Intelligence or Concepts of Programming Languages. Teaching students new and more powerful ways of thinking abo......一起来看看 《ANSI Common Lisp》 这本书的介绍吧!