DeepNLP 科普贴：既是地下的富矿，也是“魔鬼”的居所

栏目: 数据库 · 发布时间: 7年前

内容简介：DeepNLP 科普贴：既是地下的富矿，也是“魔鬼”的居所

很长时间当中，人工智能与计算机科学、语言学之间有一个交叉学科始终被市场热切关注，那就是NLP（natural language processing），即自然语言处理。

这项技术的基本内涵，是指人类与计算机之间用自然语言进行有效通信的各种理论和方法。说白了就是如何让机器听懂人类说什么，以及如何让机器说人类能听懂的话。这两个方面也被称为NLP的两个核心关键领域：自然语言理解和自然语言生成。

回想一下，我们可能会发现NLP对于推动人工智能产业发展有着举足轻重的作用。因为它可以直接作用于机器翻译、语音输入等领域。相比于人工智能和机器人领域那些“只闻其声不见其人”的算法和神经网络，翻译和语言输入法可是货真价实的商业应用。

所以作为这些应用领域的主角，NLP一直在人工智能产业化中扮演着重要角色。但有很多人认为，NLP在整个AI体系中是相对孤立的，应用范围也相对狭窄。

但随着学界一种新的跨界思维开始流行起来，这种情况仿佛有了改观：将流行的深度学习技术（deep learning）与NLP相结合，打造出更深度自然语言处理（DeepNLP）成为了火爆的AI概念。

而真正令人在意的是，这个概念背后指向的应用性近乎于是无限广泛的，甚至有人认为人类将史无前例地打开语言这个魔鬼迷宫，将人类的某些能力拉升到新的维度。

究竟有没有这么神当然不好说，但DeepNLP的潜在价值绝对不凡。

为了让大家更好理解DeepNLP的涵义与应用性，我们尝试尽可能抛弃掉所有函数和语言学公式，并且用一种比喻来理解这项技术的真实情况：挖矿。

假设DeepNLP是一座深埋在地下的富矿，那么想要得到它首先要翻越大块盐碱。而矿藏的最深处，可能就是魔鬼的居所。

从NLP到DeepNLP：人工智能不仅可以翻译、速记、问答

先来解释一下NLP与DeepNLP的不同之处。

自从上世界八十年代NLP概念被提出以来，经过了长时间的演进和迭代。其技术本身的变化非常显著。但其基本运作模式却是相同的。一般来说，NLP体系的工作对象都是人类语言。一段语言样本进入NLP系统之后，将经过系统的符号化处理，将人类语言改写成运算语言；然后通过运算能力进行模块化生成，根据不同目标进行语言处理；最终，生成的模块输出为结果，整个语言处理任务就完成了。

这样的语言处理体系，按照目的来区分一般有三种应用：一是语音文本转化为文字文本，也就是我们今天常用的语音输入；其二是不同语言之间的转化，也就是机器翻译；第三种是语言文本理解后给出相应回馈，也就是siri这样的聊天机器人。

NLP的作用，基本就是在这三种应用当中让语言处理更加自然、合理。而随着深度学习技术的不断发展，NLP似乎可以迎来一场全面的革命。

NLP长久以来存在的问题，就是人类的不同语言体系确实太复杂了，经典计算网络根本无法完全处理。尤其语义、语言情感、语言氛围以及歧义、多义等内容，更是难以被机器理解。

而目前火爆的深度学习技术，则可以用非监督式或半监督式的特征学习，来自主提取高效算法替代传统算法。换言之，深度学习中的某些技术或许可以让NLP自主理解人类语言中的具体特征和复杂语言材料。这就给NLP的革命打开了一线遐想。

事实也确实如此，随着卷积神经网络、递归神经网络、迁移学习等技术的成熟，NLP可以主动理解的算法越来越多。比如对关键词的归纳、对句子上下文关系的理解，以及通过训练结果去自主理解其他语料和语言情况。

总之，深度学习技术加上NLP，把人工智能理解人类语言推向了理论上的新高度。甚至有学者提出了DeepNLP这个新概念。加入深度学习的NLP体系，可以在表达适配度，可训练性，泛化性，模块化、可迁移性等领域上较比原有NLP具有强烈的优势。

而所谓DeepNLP的美梦成真，是从一些新工具投入使用开始的。

发现新矿层：词向量等思维模块带来的冲击

这一部分细说起来可能会有些枯燥生涩，但事实上这部分对于理解DeepNLP带来的商业可能是至关重要的。所以我们还是要简单聊一下。

话说自然语言处理的逻辑，是将人类语言转化为运算语言。但在传统计算模式下的语言转化，是将不同词汇转化为相互间完全没有联系的符号编码。

这种方式对于机器运算本身没什么问题。但对于让机器语言更好地贴近理解人类语言就会有很多障碍。比如带来的运算量非常复杂，一旦需要对语义、句法、语言回指这样的复杂问题进行计算，就会难以为继。

另一方面，这种转化模式之后，词、句、语法间是完全没有联系的。这也就难以让机器学习人类语言间的联系，产生自主理解的学习训练效果。

而有一些新技术的出现，正在改变这种现状。比如一种叫做“词向量”的思维模块，这种技术把人类语言转化为机器语言时，对每一个词进行了有联系的界定。即将词汇处理成向量，并且向量间的相对相似度和语义相似度是相关的。

比如说人，会关联着男人、女人、老人、成年人等词。这些词相互有联系，并且可以被机器理解。这也就将人类语言体系重新展现在了机器面前，给了机器学习全新的理解方式。

词向量只是DeepNLP技术中的一种解决方式，并且各种词向量也在不断进化当中。这些让机器重新理解人类语言的技术，可以被视作全新的探测器。有了这些工具，语言应用的富矿就暴露在了人类面前。

潘神的迷宫：DeepNLP的技术盐碱地

当然了，就像深度学习在众多领域的应用一样。DeepNLP达成应用也绝非朝夕之功，在开始近乎癫狂的应用想象之前，我们还是要泼一盆冷水。

虽然帮助机器深度理解人类语言的工具和技术越来越多，但语言这个神奇的王国依然保留着大块处女地。目前的精神网络和深度学习算法，还有大量的语料和语言问题无法处理。这就像我们知道某处深山中有大量金矿，但勘探队与其之间依旧隔着大片的盐碱地和坚硬岩石。

比如说语言歧义性问题，就是目前的词向量、词嵌入技术的“噩梦”。一个词可以有很多种意思，是人类不同语言的“通病”。而人类理解这些多义词基本依靠对语境和言语情感的理解。但机器学习对人类语言进行重新编码的时候，却无可避免地将同义词进行错误编码。甚至从而产生对整体语义的歧义理解。

再比如不同语种的问题。字母文字和表意文字之间的逻辑、结构和语境是完全不同的，甚至近似语言之间的语法结构也可以截然不同。深度学习体系追随的是语法内部的逻辑体系，而追寻语言本身的通路，在跨语种时可能出现巨大的障碍。

还有一个问题，是DeepNLP究竟如何训练。语言的复杂性，让复杂处理后的语言结果很难被判定。一种判定结果也很难成为其他语言处理结果的指标。因此训练样本的缺少适配性，让弱监督与无监督的NLP非常困难。

当然了，问题该有是有，但并不妨碍我们看到DeepNLP的宏大价值。语言这令人着迷的东西，如果真正为人工智能所掌握，带来的效果近乎没有尽头。

越过山岩之后的富矿：DeepNLP的应用甜梦

DeepNLP的应用价值可以非常复杂，如果算上与其他智能体系结合的应用场景，那近乎是个无穷数。但这里可以基本推测几个DeepNLP应用场景，相信大家就会明白为什么将之称为“富矿”。

一、复杂语言目的提炼与反向生成：通过循环神经网络与卷积神经网络，NLP提取复杂语言材料的核心概念将成为可能。这个能力的作用非常多，比如全面接管客户服务。而复杂语言提炼还可以重新定义模糊搜索和电商搜索。人只需要描述自己对信息或者商品的需求，NLP就可以自主提炼并进行精准定位。

而这个能力的反向生成也十分重要，深度学习体系可以帮助NLP根据人类需求自主生成文字语言材料，就预示着根据某个需求进行文本与语音创作成为可能。通过人类语言训练反向影响AI写作，也是一个十分有意思的破局思路。

二、基于语言的逻辑推理与情感判断：通过对人类语言环境中的复杂关系进行迁移学习，可以达成另外一些有意思的应用可能。比如让机器学习到人类语言中的逻辑和情感。先不提是否赋予机器这些东西，至少这将有机会让机器从人类的语言中预测结果，达成机器推理甚至情感判断。

从听懂你说话的机器人，变成能够预测你目的、读懂你的情绪的机器人，显然是一场巨大的商机。

三、文本关系的提取与分类：DeepNLP的另一个主攻方向，是对文本关系的理解。从语言环境、语位素到语言使用习惯和语言情感，人类的语言其实根植于无数文本关系之中。如果不能理解这些关系，那么AI就永远是只能进行简单交互的机器。

而通过深度学习技术进行自然语言处理，却可能让机器理解这些关系。于是复杂的文本翻译将成为可能，整本书的瞬间翻译似乎也不是难事。而方言、发声问题下的人机语音交互可能达成。当然了，这都仅仅是这个技术达成所带来应用的一小部分。

四、图像的识别与描述：通过对语言材料的迁移学习，让机器读懂人类通过双眼与自然界间的交互，也是一个充满想象力的区域。而循环神经网络等技术正在帮助NLP打开这种可能。通过反复训练AI阅读人类对图像的描述，机器将生成自主描述图像、归类解释图像的能力。

这让AI拥有了可以自己看东西，并转化为人类语言介质的能力。通过摄像头，机器将可以随时理解实物并进行分类汇总。这首先让人类的公共安全警报、搜救、探测事业有了彻底改革，更深处或许将指向机器对自然万物的自我解读。

这些应用听起来都非常魔幻，而这正是DeepNLP的可怕之处。一旦高强度自主学习的NLP与人类信息接入，那绝不是若干应用所能描述的技术变革。

矿石之外的石油：DeepNLP结合大数据

在开采DeepNLP这座矿山之外，我们显然能够发现这项技术与大数据体系结合的奇妙化反。这或许将在矿井之外再打开一座油田。

首先要知道，目前大数据资源中的很大一部分，都是以人类语言作为基本单位的。这些数据指向着多种多样的目的和结果，但其借助人类语言的特点却是相同的。在这一点上，原本普通廉价的人类语言却可以成为DeepNLP非常有效的训练材料。

而反过来说，DeepNLP技术的成熟，也可以帮助人类重新理解和使用已有的大数据资源。比如用户对某一产品的使用体会数据。原本的数据判别系统只能推测出满意级别、改进点等几个数据。因为它的逻辑是提取关键词和打分。而这显然就忽视了用户的个体性。通过DeepNLP去处理客户数据，或许可以判断每一个用户的受访环境、受访回答真实性，甚至根据语气和描述推断出用户没有提到的产品改进建议。

这里有一个逻辑推演，那就是在足够成熟的DeepNLP体系、足够大的数据承载量以及足够强大的运算能力（比如相对成熟的量子计算）支撑下，将有可能对人类的每一句话进行推演和预测，推断人类生活中每一个细节的原因与结果。电影《少数派报告》中的预测犯罪机器人，或许就是以此为科学解释。

语言迷宫，是人类长期以来自身都无法破解的牢笼。一个优秀的演讲者、魅力十足的推销员、套路诡谲的骗子，往往有无法解释的能力达成目标。而依靠的没有其他东西，就是语言。一旦这种能力为AI所获得，释放出的当然有数不胜数的机遇财富，但同时出笼的，或许还有一位名唤“语言”的恐怖魔鬼。

更多精彩内容，关注钛媒体微信号（ID：taimeiti），或者下载钛媒体App

DeepNLP 科普贴：既是地下的富矿，也是“魔鬼”的居所

以上所述就是小编给大家介绍的《DeepNLP 科普贴：既是地下的富矿，也是“魔鬼”的居所》，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对码农网的支持！

查看所有标签

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

风向

何宝宏 / 人民邮电出版社 / 2019-1 / ¥68.00元

★这是处于不断变化的互联网时代，行业从业者与非专业从业者都应阅读的解惑之书。 ★揭示互联网思想和精神的“内核”，帮助更多人了解互联网基因。 ★看清人工智能、区块链、大数据、云计算等技术发展的规律和机会。 ★为投资者、创业者提供方向，为广大技术从业者了解技术，为就业择业者提供建议和参考。 ★中国信通院院长刘多、腾讯云总裁邱跃鹏做序推荐。 ★中国工程院院士邬贺铨、中国科学......一起来看看《风向》这本书的介绍吧!

码农工具