李亚洲 转载
李亚洲 思源 整理
从技术到人才,清华-中国工程院知识智能联合实验室发布「2018自然语言处理研究报告」
自然语言处理是现代技术最重要的组成部分之一,而最近清华大学和中国工程院知识智能联合实验室发布一份非常全面的 NLP 报告。该报告从 NLP 的概念介绍、研究与应用情况、专家学者概要以及发展趋势这 5 个方向纵览了这一领域的当下与未来,机器之心简要介绍了该报的概要信息,但读者可以从这些方面纵览 NLP 的发展面貌,完整内容请下载查看原报告。
报告下载地址:https://www.aminer.cn/research_report/nlp?h=5200&download=true
根据 AMiner 研究报告的摘要所述,分析师们主要从以下五个方向六大章节梳理自然语言处理的发展状况:
-
自然语言处理概念。首先对自然语言处理进行定义,接着对自然语言的发展历程进行了梳理,对我国自然语言处理现状进行了简单介绍,对自然语言处理业界情况进行介绍。
-
自然语言处理研究情况。依据 2016 年中文信息学会发布的中文信息处理发展报告对自然语言处理研究中的重要技术进行介绍。
-
自然语言处理领域专家介绍。利用 AMiner 大数据对自然语言处理领域专家进行深入挖掘,对国内外自然语言处理知名实验室及其主要负责人进行介绍。
-
自然语言处理的应用及趋势预测。自然语言处理在现实生活中应用广泛,目前的应用集中在语言学、数据处理、认知科学以及语言工程等领域,在介绍相关应用的基础上,对机器翻译未来的发展趋势做出了相应的预测。
1 概述篇
在概述篇中,该报告重点介绍了自然语言处理的概念、发展历程、我国 NLP 目前的发展状况和业界的研究与应用。
1.1自然语言处理概念
自然语言是指汉语、英语、法语等人们日常使用的语言,是自然而然的随着人类社会发 展演变而来的语言,而不是人造的语言,它是人类学习生活的重要工具。概括说来,自然语 言是指人类社会约定俗成的,区别于人工语言,如程序设计的语言。
自然语言处理,是指用计算机对自然语言的形、音、 义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工。实现人机间的信息交流,是人工智能界、计算机科学和语言学界所共同关注的重要问题。自然语言处理的具体表现形式包括机器翻译、文本摘要、文本分类、文本校对、信息抽取、语音合成、语音识别等。可以说,自然语言处理就是要计算机理解自然语言,自然语言处理机制涉及两个流程,包括自然语言理解和自然语言生成。
1.2自然语言处理发展历程
自然语言处理是包括了计算机科学、语言学心理认知学等一系列学科的一门交叉学科,这些学科性质不同但又彼此相互交叉。因此,梳理自然语言处理的发展历程对于我们更好地了解自然语言处理这一学科有着重要的意义。
从 2008 年到现在,在图像识别和语音识别领域的成果激励下,人们也逐渐开始引入深度学习来做自然语言处理研究,由最初的词向量到 2013 年word2vec,将深度学习与自然语言处理的结合推向了高潮,并在机器翻译、问答系统、阅读理解等领域取得了一定成功。深 度学习是一个多层的神经网络,从输入层开始经过逐层非线性的变化得到输出。从输入到输出做端到端的训练。把输入到输出对的数据准备好,设计并训练一个神经网络,即可执行预想的任务。RNN 已经是自然语言护理最常用的方法之一,GRU、LSTM 等模型相继引发了一轮又一轮的热潮。
1.3 我国自然语言处理现状
目前自然语言处理的研究可以分为基础性研究和应用性研究两部分,语音和文本是两类 研究的重点。基础性研究主要涉及语言学、数学、计算机学科等领域,相对应的技术有消除歧义、语法形式化等。应用性研究则主要集中在一些应用自然语言处理的领域,例如信息检索、文本分类、机器翻译等。由于我国基础理论即机器翻译的研究起步较早,且基础理论研究是任何应用的理论基础,所以语法、句法、语义分析等基础性研究历来是研究的重点,而且随着互联网网络技术的发展,智能检索类研究近年来也逐渐升温。
1.4自然语言处理业界发展
1. Google
Google 是最早开始研究自然语言处理技术的团队之一,作为一个以搜索为核心的公司,Google 对自然语言处理更为重视。Google 拥有着海量数据,可以搭建丰富庞大的数据库,可以为其研究提供强大的数据支撑。Google 对自然语言处理的研究侧重于应用规模、跨语言和跨领域的算法,其成果在 Google 的许多方面都被使用,提升了用户在搜索、移动、应用、广告、翻译等方面的体验。
2. 百度
百度自然语言处理部是百度最早成立的部门之一,研究涉及深度问答、阅读理解、智能 写作、对话系统、机器翻译、语义计算、语言分析、知识挖掘、个性化、反馈学习等。其中,百度自然语言处理在深度问答方向经过多年打磨,积累了问句理解、答案抽取、观点分析与 聚合等方面的一整套技术方案,目前已经在搜索、度秘等多个产品中实现应用。篇章理解通过篇章结构分析、主体分析、内容标签、情感分析等关键技术实现对文本内容的理解,目前,篇章理解的关键技术已经在搜索、资讯流、糯米等产品中实现应用。百度翻译目前支持全球 28 种语言,覆盖 756 个翻译方向,支持文本、语音、图像等翻译功能,并提供精准人工翻 译服务,满足不同场景下的翻译需求,在多项翻译技术取得重大突破,发布了世界上首个线 上神经网络翻译系统。
3. 阿里巴巴
阿里自然语言处理为其产品服务,在电商平台中构建知识图谱实现智能导购,同时进行全网用户兴趣挖掘,在客服场景中也运用自然语言处理技术打造机器人客服,例如蚂蚁金融智能小宝、淘宝卖家的辅助 工具 千牛插件等,同时进行语音识别以及后续分析。阿里的机器翻译主要与其国家化电商的规划相联系,可以进行商品信息翻译、广告关键词翻译、买家采 购需求以及即时通信翻译等,语种覆盖中文、荷兰语、希伯来语等语种,2017 年初阿里正式 上线了自主开发的神经网络翻译系统,进一步提升了其翻译质量。
4. 腾讯
AI Lab 是腾讯的人工智能实验室,研究领域包括计算机视觉、语音识别、自然语言处理、机器学习等。其研发的腾讯文智自然语言处理基于并行计算、分布式爬虫系统,结合独特的语义分析技术,可满足自然语言处理、转码、抽取、数据抓取等需求,同时,基于文智 API 还可以实现搜索、推荐、舆情、挖掘等功能。在机器翻译方面,2017 年腾讯宣布翻译君 上线「同声传译」新功能,用户边说边翻的需求得到满足,语音识别+NMT 等技术的应用保证了边说边翻的速度与精准性。
除此之外,该报告还介绍了微软亚洲研究院、Facebook、京东和科大讯飞等在 NLP 方面有非常多研究与应用的机构。
2 技术篇
自然语言处理的研究领域极为广泛,各种分类方式层出不穷,各有其合理性,我们按照中国中文信息学会 2016 年发布的《中文信息处理发展报告》,将自然语言处理的研究领 域和技术进行以下分类,并选取其中部分进行介绍。
-
基础技术:词法与句法分析、语义分析、语篇分析、知识图谱、语言认知模型、语言知识表示和深度学习
-
应用技术:机器翻译、信息检索、情感分析、自动问答、自动文摘、信息抽取、信息推荐与过滤、文本分类与聚类、文字识别
2.1自然语言处理基础技术
自然语言的基础技术包括词汇、短语、 句子和篇章级别的表示,以及分词、句法分析和语义分析以及语言认知模型和知识图谱等。
2.1.1 词法、句法及语义分析
词法分析的主要任务是词性标注和词义标注。词性是词汇的基本属性,词性标注就是在 给定句子中判断每个词的语法范畴,确定其词性并进行标注。解决兼类词和确定未登录词的 词性问题是标注的重点。进行词性标注通常有基于规则和基于统计的两种方法。一个多义词往往可以表达多个意义,但其意义在具体的语境中又是确定的,词义标注的重点就是解决如何确定多义词在具体语境中的义项问题。标注过程中,通常是先确定语境,再明确词义,方 法和词性标注类似,有基于规则和基于统计的做法。
判断句子的句法结构和组成句子的各成分,明确它们之间的相互关系是句法分析的主要任务。句法分析通常有完全句法分析和浅层句法分析两种,完全句法分析是通过一系列的句法分析过程最终得到一个句子的完整的句法树。句法分析方法也分为基于规则和基于统计的
方法,基于统计的方法是目前的主流方法,概率上下文无关文法用的较多。完全句法分析存 在两个难点,一是词性歧义;二是搜索空间太大,通常是句子中词的个数 n 的指数级。浅层句法分析又叫部分句法分析或语块分析,它只要求识别出句子中某些结构相对简单的成分如 动词短语、非递归的名词短语等,这些结构被称为语块。一般来说,浅层语法分析会完成语块的识别和分析、语块之间依存关系的分析两个任务,其中语块的识别和分析是浅层语法分析的主要任务。
语义分析是指根据句子的句法结构和句子中每个实词的词义推导出来能够反映这个句 子意义的某种形式化表示,将人类能够理解的自然语言转化为计算机能够理解的形式语言。句子的分析与处理过程,有的采用「先句法后语义」的方法,但「句法语义一体化」的策略 还是占据主流位置。语义分析技术目前还不是十分成熟,运用统计方法获取语义信息的研究颇受关注,常见的有词义消歧和浅层语义分析。
自然语言处理的基础研究还包括语用语境和篇章分析。语用是指人对语言的具体运用,研究和分析语言使用者的真正用意,它与语境、语言使用者的知识涵养、言语行为、想法和 意图是分不开的,是对自然语言的深层理解。情景语境和文化语境是语境分析主要涉及的方 面,篇章分析则是将研究扩展到句子的界限之外,对段落和整篇文章进行理解和分析。
除此之外,自然语言的基础研究还涉及词义消歧、指代消解、命名实体识别等方面的研 究。
2.1.2知识图谱
知识图谱,是为了表示知识,描述客观世界的概念、实体、事件等之间关系的一种表示 形式。这一概念的起源可以追溯至语义网络——提出于 20 世纪五六十年代的一种知识表示 形式。语义网络由许多个「节点」和「边」组成,这些「节点」和「边」相互连接,「节点」表示的是概念或对象,「边」表示各个节点之间的关系。
知识图谱在表现形式上与语义网络比较类似,不同的是,语义网络侧重于表示概念与概 念之间的关系,而知识图谱更侧重于表述实体之间的关系。现在的知识网络被用来泛指大规 模的知识库,知识图谱中包含的节点有以下几种:
-
实体:指独立存在且具有某种区别性的事物。如一个人、一种动物、一个国家、一种植物等。
-
语义类:具有同种特性的实体构成的集合,如人类、动物、国家、植物等。
-
内容:通常是实体和语义类的名字、描述、解释等,变现形式一般有文本、图像、音视 频等。
-
属性(值):主要指对象指定属性的值,不同的属性类型对应于不同类型属性的边。
-
关系:在知识图谱上,表现形式是一个将节点(实体、语义类、属性值)映射到布尔值 的函数。
知识图谱表示、构建和应用涉及很多学科,是一项综合的复杂技术。知识图谱技术既涉 及自然语言处理中的各项技术,从浅层的文本向量表示、到句法和语义结构表示被适用于资源内容的表示中,分词和词性标注、命名实体识别、句法语义结构分析、指代分析等技术被 应用于自然语言处理中。同时,知识图谱的研究也促进了自然语言处理技术的研究,基于知 识图谱的词义排岐和语义依存关系分析等知识驱动的自然语言处理技术得以建立。
2.2自然语言处理应用技术
2.2.1机器翻译
机器翻译(Machine Translation)是指运用机器,通过特定的计算机程序将一种书写形式 或声音形式的自然语言,翻译成另一种书写形式或声音形式的自然语言。机器翻译是一门交 叉学科(边缘学科),组成它的三门子学科分别是计算机语言学、人工智能和数理逻辑,各 自建立在语言学、计算机科学和数学的基础之上。
目前,文本翻译最为主流的工作方式依然是以传统的统计机器翻译和神经网络翻译为主。Google、Microsoft 与国内的百度、有道等公司都为用户提供了免费的在线多语言翻译系统。速度快、成本低是文本翻译的主要特点,而且应用广泛,不同行业都可以采用相应的专业翻译。但是,这一翻译过程是机械的和僵硬的,在翻译过程中会出现很多语义语境上的问题,仍然需要人工翻译来进行补充。
语音翻译可能是目前机器翻译中比较富有创新意思的领域,搜狗推出的机器同传 技术主要在会议场景出现,演讲者的语音实时转换成文本,并且进行同步翻译,低延迟显示 翻译结果,希望能够取代人工同传,实现不同语言人们低成本的有效交流。
图像翻译也有不小的进展。谷歌、微软、Facebook 和百度均拥有能够让用户搜索或者自动整理没有识别标签照片的技术。除此之外还有视频翻译和 VR 翻译也在逐渐应用中,但是目前的应用还不太成熟。
2.2.2信息检索
信息检索是从相关文档集合中查找用户所需信息的过程。信息检索的基本原理是将用户输入的检索关键词与数据库 中的标引词进行对比,当二者匹配成功时,检索成功。
以谷歌为代表的「关键词查询+选择性浏览」交互方式,用户用简单的关键词作为查询提交给搜索引擎,搜索引擎并非直接把检索目标页面反馈给用户,而是提供给用户一个可能 的检索目标页面列表,用户浏览该列表并从中选择出能够满足其信息需求的页面加以浏览。
2.2.4 自动问答
自动问答是指利用计算机自动回答用户所提出的问题以满足用户知识需求的任务。自动问答系统在回答用户问题时,首先要正确理解用户所提出的问题,抽取其中关键的信息,在已有的语料库或者知识库中进行检索、匹配,将获取的答案反馈给用户。这一过程 涉及了包括词法句法语义分析的基础技术,以及信息检索、知识工程、文本生成等多项技术。
根据目标数据源的不同,问答技术大致可以分为检索式问答、社区问答以及知识库问答 三种。检索式问答和社区问答的核心是浅层语义分析和关键词匹配,而知识库问答则正在逐步实现知识的深层逻辑推理。
除了这几种 NLP 应用,其它如情感分析、自动文本摘要、社会计算和信息抽取也都有广泛的应用,读者可查阅原报告了解详细内容。
3 人才篇
3.1 国外实验室及人才介绍
AMiner 基于发表于国际期刊会议的学术论文,对自然语言处理领域全球 h-index 排序 top1000 的学者进行计算分析,绘制了该领域顶尖学者全球分布地图。
这部分内容中,AMiner 还选取在 ACL、EMNLP、NAACL、COLING 等 4 个会议在近 5 年累计发表 10 次以上论文的国外学者及其所在实验室做简要介绍。包括:
-
Chris Dyer,卡内基梅隆大学语言技术研究所
-
Christopher D. Manning,斯坦福大学自然语言处理小组
-
Dan Klein,伯克利大学自然语言处理小组
除了以上提到的,国外还有一些知名自然语言处理实验室 :
-
圣母大学自然语言处理小组,负责人是 David Chiang
-
哈佛自然语言处理小组,负责人是 Stuart Shieber
-
哥伦比亚大学自然语言处理研究室,负责人为 Michael Collins
3.2 国内实验室及人才介绍
这部分,AMiner 基于论文数据整理了自然语言处理华人专家库,其中包括了来自 NUS、HKUS、 THU、PKU、FDU 等知名高校以及百度、科大讯飞、微软等公司的 367 位专家学者。
而后,AMiner 选取在 ACL、EMNLP、NAACL、COLING 等 4 个会议在近 5 年累计发表 10 次以 上论文的国内学者包括刘群、刘挺、周明、常宝宝、黄萱菁、刘洋、孙茂松、李素建、万小 军、邱锡鹏、穗志方等。
图:国内学者介绍示例
3.3 ACL2018 奖项介绍
2018 年 7 月 15 在墨尔本开幕的 ACL 公布了其最佳论文名单,包括 3 篇最佳长论文和 2 篇最佳短论文以及 1 篇最佳 demo 论文,值得一提的是 Amazon Door Prize 中北京大学和哈尔滨大学上榜,ACL2018 终身成就奖为爱丁堡大学 Mark Steedman 获得。
接下来,该报告对获奖论文进行了摘要介绍。读者们也可以参考机器之心文章《计算语言顶会 ACL 2018 最佳论文公布!这些大学与研究员榜上有名》
4. 应用篇
从知识产业角度来看,自然语言处理软件占有重要的地位,专家系统、数据库、知识库,计算机辅助设计系统 (CAD)、计算机辅助教学系统 (Cal)、计算机辅助决策系统、办公室 自动化管理系统、智能机器人等,全都需要自然语言做人机界面。长远看来,具有篇章理解 能力的自然语言理解系统可用于机器自动翻译、情报检索、自动标引及自动文摘等领域,有着广阔的应用前景。
随着自然语言处理研究的不断深入和发展,应用领域越来越广。
文本方面的应用主要有:基于自然语言理解的智能搜索引擎和智能检索、智能机器翻译、 自动摘要与文本综合、文本分类与文件整理、智能自动作文系统、自动判卷系统、信息过滤 与垃圾邮件处理、文学研究与古文研究、语法校对、文本数据挖掘与智能决策以及基于自然 语言的计算机程序设计等。
语音方面的应用主要有:机器同声传译、智能远程教学与答疑、语音控制、智能客户服 务、机器聊天与智能参谋、智能交通信息服务 (ATIS)、智能解说与体育新闻实时解说、语 音挖掘与多媒体挖掘、多媒体信息提取与文本转化以及对残疾人智能帮助系统等。
此外,建立在自然语言处理技术基础之上的心理学、认知学、哲学、混沌学说的共同发展,将使人们对智能的起源问题有新的认识。如果把计算机网络和未来的网格看作是由机器 组成的机器社会,那么一种属于机器的智能可能会因为人类的参与以及机器社会中各元素的相互作用而自然诞生。这样,机器必将能够通过「图灵测试」,达到「会思考」的层次。而 有关智能机器的研究也会诞生一系列新的领域,比如,机器心理学和机器认知学等。
其中,机器心理学主要研究机器的心理反应和意图。美国圣迭戈神经科学研究所研制的机器人DarwinV II,能够根据其感知对外部事物进行分类,并根据经验和知识采取相应的对策。然而,机器心理学的研究不能局限于此,人们还需要对机器的意识、知觉、思想、情感、 情绪、创造力、机器社会、机器交流等方面进行研究,而这一切还需要计算机科学、心理学、神经科学的同步发展。
而后,AMiner 选取了一些自然语言处理应用较为频繁的场景进行介绍,如知识图谱、机器翻译、推荐系统等。
5 趋势篇
随着深度学习时代的来临,神经网络成为一种强大的机器学习工具,自然语言处理取得了许多突破性发展,情绪分析、自动问答、机器翻译等领域都飞速发展。
下图分别是 AMiner 计算出的自然语言处理近期热点和全球热点。通过对 1994-2017 年间自然语言处理领域有关论文的挖掘,总结出二十多年来,自然语言处理的领域关键词主要集中在计算机语言、神经网络、情感分析、机器翻译、词义消歧、信息提取、知识库和文本 分析等领域。旨在基于历史的科研成果数据的基础上,对自然语言处理热度甚至发展趋势进行研究。图中,每个彩色分支表示一个关键词领域,其宽度表示该关键词的研究热度,各关键词在每一年份(纵轴)的位置是按照这一时间点上所有关键词的热度高低进行排序。
图 16 显示,情绪分析、词义消歧、知识库和计算机语言学将是最近的热点发展趋势,图 17 显示词义消歧、词义理解、计算机语言学、信息检索和信息提取将是自然语言处理全 球热点。
AMiner 同时在微博 @ArnetMiner 中发起了关于自然语言处理未来发展趋势的投票,得到了如下结果。
相关数据
Neural Network
(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。
来源:机器之心
Computer Vision
计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。
来源:机器之心
Expert system
专家系统(ES)是人工智能最活跃和最广泛的领域之一。专家系统定义为:使用人类专家推理的计算机模型来处理现实世界中需要专家作出解释的复杂问题,并得出与专家相同的结论。简言之,如图1所示,专家系统可视作“知识库(knowledge base)”和“推理机(inference machine)” 的结合。
Information extraction
信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。信息抽取有两部分:命名实体识别(目标是识别和分类真实世界里的知名实体)和关系提取(目标是提取实体之间的语义关系)。概率模型/分类器可以帮助实现这些任务。
来源:机器之心
Knowledge graph
知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。
来源:机器之心
Natural language generation
自然语言生成(NLG)是自然语言处理的一部分,从知识库或逻辑形式等等机器表述系统去生成自然语言。这种形式表述当作心理表述的模型时,心理语言学家会选用语言产出这个术语。自然语言生成系统可以说是一种将资料转换成自然语言表述的翻译器。不过产生最终语言的方法不同于编译程式,因为自然语言多样的表达。NLG出现已久,但是商业NLG技术直到最近才变得普及。自然语言生成可以视为自然语言理解的反向: 自然语言理解系统须要厘清输入句的意涵,从而产生机器表述语言;自然语言生成系统须要决定如何把概念转化成语言。
来源: 维基百科
Knowledge base
知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。
来源: 维基百科
Logic
人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。
来源:机器之心
Information Retrieval
信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。
来源:机器之心
Machine Learning
机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。
来源:Mitchell, T. (1997). Machine Learning. McGraw Hill.
Mapping
映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。
来源: Wikipedia
Lexical analysis
词法分析是计算机科学中将字符序列转换为标记序列的过程。进行词法分析的程序或者函数叫作词法分析器,也叫扫描器。词法分析器一般以函数的形式存在,供语法分析器调用
来源: 维基百科
Named entity recognition
命名实体识别(NER)是信息提取(Information Extraction)的一个子任务,主要涉及如何从文本中提取命名实体并将其分类至事先划定好的类别,如在招聘信息中提取具体招聘公司、岗位和工作地点的信息,并将其分别归纳至公司、岗位和地点的类别下。命名实体识别往往先将整句拆解为词语并对每个词语进行此行标注,根据习得的规则对词语进行判别。这项任务的关键在于对未知实体的识别。基于此,命名实体识别的主要思想在于根据现有实例的特征总结识别和分类规则。这些方法可以被分为有监督(supervised)、半监督(semi-supervised)和无监督(unsupervised)三类。有监督学习包括隐形马科夫模型(HMM)、决策树、最大熵模型(ME)、支持向量机(SVM)和条件随机场(CRF)。这些方法主要是读取注释语料库,记忆实例并进行学习,根据这些例子的特征生成针对某一种实例的识别规则。
来源: David, N. & Satoshi, S. (2007). A survey of named entity recognition and classification
Natural language processing
自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。
来源: 维基百科
Machine translation
机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。
来源:机器之心
neuroscience
神经科学,又称神经生物学,是专门研究神经系统的结构、功能、发育、演化、遗传学、生物化学、生理学、药理学及病理学的一门科学。对行为及学习的研究都是神经科学的分支。 对人脑研究是个跨领域的范畴,当中涉及分子层面、细胞层面、神经小组、大型神经系统,如视觉神经系统、脑干、脑皮层。
来源: 维基百科
Question Answering
问答系统是未来自然语言处理的明日之星。问答系统外部的行为上来看,其与目前主流资讯检索技术有两点不同:首先是查询方式为完整而口语化的问句,再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例,使用者不需要思考该使用什么样的问法才能够得到理想的答案,只需要用口语化的方式直接提问如“请问谁是美国总统?”即可。而系统在了解使用者问句后,会非常清楚地回答“奥巴马是美国总统”。面对这种系统,使用者不需要费心去一一检视搜索引擎回传的网页,对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看,问答系统使用了大量有别于传统资讯检索系统自然语言处理技术,如自然语言剖析(Natural Language Parsing)、问题分类(Question Classification)、专名辨识(Named Entity Recognition)等等。少数系统甚至会使用复杂的逻辑推理机制,来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上,除了传统资讯检索会使用到的资料外(如字典),问答系统还会使用本体论等语义资料,或者利用网页来增加资料的丰富性。
来源: 维基百科
Recommender system
推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。
来源:机器之心
Planning
人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。
来源:机器之心
Probabilistic context-free grammars
PCFG扩展上下文无关语法(Context-free grammar),类似于隐马尔可夫模型常规语法的扩展。
来源: Wikipedia
perception
知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。
来源: 维基百科
Semantic web
语义网是由万维网联盟的蒂姆·伯纳斯-李在1998年提出的一个概念,它的核心是:通过给万维网上的文档蒂姆加能够被计算机所理解的语义,从而使整个互联网成为一个通用的信息交换媒介。语义万维网通过使用标准、置标语言和相关的处理工具来扩展万维网的能力。
来源: 维基百科
Robotics
机器人学(Robotics)研究的是「机器人的设计、制造、运作和应用,以及控制它们的计算机系统、传感反馈和信息处理」 [25] 。 机器人可以分成两大类:固定机器人和移动机器人。固定机器人通常被用于工业生产(比如用于装配线)。常见的移动机器人应用有货运机器人、空中机器人和自动载具。机器人需要不同部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器;另外还有能够实现感知能力的软件,比如定位、地图测绘和目标识别。之前章节中提及的技术都可以在机器人上得到应用和集成,这也是人工智能领域最早的终极目标之一。
来源:机器之心
syntactic analysis
在计算机科学和语言学中,语法分析是根据某种给定的形式文法对由单词序列构成的输入文本进行分析并确定其语法结构的一种过程。 语法分析器通常是作为编译器或解释器的组件出现的,它的作用是进行语法检查、并构建由输入的单词组成的数据结构。
来源: 维基百科
Turing Test
图灵测试(英语:Turing test,又译图灵试验)是图灵于1950年提出的一个关于判断机器是否能够思考的著名试验,测试某机器是否能表现出与人等价或无法区分的智能。测试的谈话仅限于使用唯一的文本管道,例如计算机键盘和屏幕,这样的结果是不依赖于计算机把单词转换为音频的能力。
来源: 维基百科
Speech synthesis
语音合成,又称文语转换(Text to Speech)技术,是将人类语音用人工的方式所产生,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。
Speech Recognition
自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。
text classification
该技术可被用于理解、组织和分类结构化或非结构化文本文档。文本挖掘所使用的模型有词袋(BOW)模型、语言模型(ngram)和主题模型。隐马尔可夫模型通常用于词性标注(POS)。其涵盖的主要任务有句法分析、情绪分析和垃圾信息检测。
来源:机器之心
Statistical machine translation
随着统计学的发展,研究者开始将统计模型应用于机器翻译,这种方法是基于对双语文本语料库的分析来生成翻译结果。这种方法被称为统计机器翻译(SMT)
来源:机器之心
word2vec
Word2vec,为一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。 训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系。该向量为神经网络之隐藏层。 Word2vec依赖skip-grams或连续词袋(CBOW)来建立神经词嵌入。Word2vec为托马斯·米科洛夫(Tomas Mikolov)在Google带领的研究团队创造。该算法渐渐被其他人所分析和解释。
来源: 维基百科
Word sense disambiguation
在计算机语言学, 词义消歧(WSD) 是一个自然语言处理和本体论的开放问题 。 歧义与消歧是自然语言理解中最核心的问题,在词义、句义、篇章含义层次都会出现语言根据上下文语义不同的现象,消歧即指根据上下文确定对象语义的过程。 词义消歧即在词语层次上的语义消歧。
来源: 维基百科
Deep learning
深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。
来源: LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.
Data mining
数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。
来源: 维基百科
机器之心编辑
以上所述就是小编给大家介绍的《从技术到人才,清华-中国工程院知识智能联合实验室发布「2018自然语言处理研究报告」》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!
猜你喜欢:- OK区块链工程院:区块链是如何运作的? | 详解7层架构
- 坐以待毙不如主动出击,工程院院士沈昌祥寄语可信计算3.0
- 人工智能领头人邓力当选加拿大国家工程院院士!7月将出席 CCF-GAIR 2019
- 中国工程院院士胡盛寿:智慧医疗离我们还很远
- 中国工程院院士沈昌祥:做主动免疫的网络安全防线
- 中国工程院院士谈红芯造假:穿上创新的“马甲”危害更大
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
Machine Learning
Kevin Murphy / The MIT Press / 2012-9-18 / USD 90.00
Today's Web-enabled deluge of electronic data calls for automated methods of data analysis. Machine learning provides these, developing methods that can automatically detect patterns in data and then ......一起来看看 《Machine Learning》 这本书的介绍吧!
图片转BASE64编码
在线图片转Base64编码工具
RGB HSV 转换
RGB HSV 互转工具