2019 自然语言处理前沿论坛，百度NLP技术全揭秘

栏目: 编程工具 · 发布时间: 5年前

内容简介：雷锋网 AI 科技评论按，近日，由百度联合中国计算机学会中文信息技术专委会、中国中文信息学会青工委举办的「2019 自然语言处理前沿论坛」上，来自百度和各大高校的嘉宾们分享了关于 NLP 技术研究的心得体会。本次论坛主题为「机器之‘读、写、说、译’—— 探寻 NLP 未来之路」，来自百度的嘉宾们分别在语义计算、自动问答、语言生成、人机对话和机器翻译5场专题报告中分享了百度 NLP 技术的研究成果与应用。语义计算

雷锋网 AI 科技评论按，近日，由百度联合中国计算机学会中文信息技术专委会、中国中文信息学会青工委举办的「2019 自然语言处理前沿论坛」上，来自百度和各大高校的嘉宾们分享了关于 NLP 技术研究的心得体会。

本次论坛主题为「机器之‘读、写、说、译’—— 探寻 NLP 未来之路」，来自百度的嘉宾们分别在语义计算、自动问答、语言生成、人机对话和机器翻译5场专题报告中分享了百度 NLP 技术的研究成果与应用。

语义计算

百度 NLP 主任研发架构师、语义计算技术负责人孙宇：百度语义计算技术及其应用

2019 自然语言处理前沿论坛，百度NLP技术全揭秘

孙宇主要介绍了百度语义表示技术的发展和研究成果、落地情况。

他表示，百度的语义计算方向包括语义表示学习、语义匹配计算、语义解析、多模态语义计算。计算机理解人类语言是一件非常有挑战性的事情。

语义表示技术存在的问题是，自然语言存在基本单元一词多义、多词同义、句子表述无限等特性。而我们的目标是将语言符号“表示”为另一种形式，这种表示具有语义上的等价性，更好的可计算性，更好地把握语义信息。

百度早期的语义表示技术采用的是基于检索和主题模型的表示方法，包括Term向量表示、PLSA、LDA等。

在 2013~2016 年，随着基于 DNN 表示技术的兴起，百度开始了 word embedding 的研究。采用的算法是 RNNLM + Hierarchical softmax，其规模达到 1T 百度网页数据，100 万超大规模中文词覆盖，主要研究问题是解决大规模分布式计算问题。2017 年，百度进行了基于大规模表示迁移在口语理解任务的探索。

语义匹配方面，百度 2013 年率先提出了 SimNet 技术，并成功用于网页搜索，在未来的几年中，对该技术做了很多改进创新，包括数据分析、粒度知识融合、交互式匹配模型等方面的创新。SimNet 显著改善了长冷 query 的搜索效果，提升了搜索智能化的水平，在百度搜索发挥至关重要的作用。当前，SimNet 语义匹配技术在百度各产品广泛应用。

现在，百度的最新研究是提出了知识增强的语义表示模型 ERNIE 并发布了基于 PaddlePaddle 的开源代码与模型。框架包括基于海量百科、新闻、对话多源数据训练，双向多层 Transformer的语义建模模型，融合并强化中文词、实体等先验语义知识学习，多阶段知识学习。在自然语言推断、语义相似度、命名实体识别、情感分析、问答匹配等多个公开的中文数据集合上进行实验，均取得了最好的效果。

百度接下来的主要工作还是会以语义表示为重点突破方向，包括知识的利用，自监督任务的学习，弱监督信号的利用，多语言、跨模态表示等。

自动问答

百度 NLP 资深研发工程师、阅读理解与问答技术负责人刘璟：百度阅读理解技术研究及应用

2019 自然语言处理前沿论坛，百度NLP技术全揭秘

机器阅读理解是指让机器阅读文本，然后回答和阅读内容相关的问题。机器阅读理解是自动问答的关键技术之一，该技术可以广泛应用于智能问答、智能音箱、智能客服等产品中，因此长期以来受到学术界和工业界的广泛关注。得益于近两年阅读理解技术的快速进步，百度已将这一技术应用到智能问答中。

百度主要研发了面向搜索场景的多文档阅读理解模型 V-NET，以及知识表示和文本表示融合模型 KT-NET。

面向搜索场景的多文档阅读理解中，每个问题包含了多个段落，因此通常存在歧义信息较多的挑战。对此，百度研发了端到端的多文档阅读理解模型 V-NET，该模型在英文多文档阅读理解数据集 MSMARCO V2 问答任务上三次排名第一。

此外，机器阅读理解不仅要求机器理解给定的文本内容，还要求机器具备外部知识以支撑更为复杂的推理。为此，百度开创性地提出了语言表示与知识表示的深度融合模型 KT-NET，同时借助语言和知识进一步提升机器阅读理解的效果。KT-NET 目前是常识推理阅读理解数据集ReCoRD榜单上排名第一的模型。

除了在技术上不断投入研发，百度在去年推出了面向搜索场景的最大规模的中文阅读理解数据集 DuReader 2.0，规模包含了 30 万问题和 150 万文档和 66 万答案。百度、中国计算机学会和中文信息学会连续两年举办了基于 DuReader 数据集的机器阅读理解评测，推动了中文阅读理解技术的进步。

语言生成

百度 NLP 主任研发架构师、篇章理解与语言生成技术负责人肖欣延：自然语言生成，助力智能内容创作

2019 自然语言处理前沿论坛，百度NLP技术全揭秘

肖欣延表示，随着内容生态和智能交互的发展，自然语言生成得到越来越多的关注。一方面自然语言生成能够帮助内容创作者提升创作效率，另一方面，也能够用来改善交互的用户体验。

自然语言生成的愿景是，让机器像人类一样去表达和创作。具体来看，它包含很多类型的任务，包括数据到文本的生成、文本到文本的生成、诗歌对联的生成、多模生成、跨语言生成、对话生成等任务。此次报告中，主要从前面四个任务，介绍自然语言生成在内容创作的技术及应用。

首先是数据到文本的生成。这里展示了具体的足球比赛快讯生成样例。传统的方法是基于宏观规划、微观规划、表层实现的句法树生成算法，这种算法效果可控，在业务中十分实用。同时报告中也介绍了基于深度学习的方法。方法是将宏观规划融合到层次化序列生成算法中，在公开测试集效果不错。

其次是文本到文本的生成。这里展示了基于摘要聚合的写作，能够快速对热点进行综述报道。其中的核心技术是摘要技术。传统而实用的方法主要是抽取式的算法，通过文档分析、句子排序、句子选择、摘要构建输出摘要。百度同时也创新提出了基于信息选择网络的生成式摘要，并在公开主流数据上得到不错的实验效果。

第三是创意写作，包括诗歌和对联生成。百度创新提出了基于规划的神经网络，并用于诗歌生成。目前基于神经网络生成算法，在写诗写对联上已经都比较实用。

最后一个任务是多模生成。百度初步尝试了基于视频的写作，通过多模理解技术，如视频理解、观点分析、知识图谱的技术，获得视频的结构化、半结构化表示，然后在利用前面所述的基于数据的生成，撰写出内容丰富的文章。

肖欣延接着讨论了智能写作和人工撰写的关系。智能写作通过大数据分析，获取热点素材，然后快速根据数据生成报道，但是它生成的报道格式比较固定。而人类写作时，在看到数据或事物之后，会产生各种演绎和联想，深度挖掘各种题材，因而写作形式也多种多样。所以，从整体上来看，机器和人的差距依然存在，智能写作不能完全取代作者，而应该和作者分工合作。

为此百度推出了智能写作平台，提供自动写作和辅助写作的能力，进而帮助创作者提升内容创作的效率和质量，为智能创作领域提供更多可能。目前已经可以通过百度的 AI 平台进行访问。

谈到未来，他表示有很多比较看好的应用。一方面，写作将会更加自动、更生动、更有深度；另一方面，基于神经网络的生成模型会逐渐实用化；在媒体行业，智能写作会广泛的落地，成为人类创作的助手；在智能交互家居中，语言生成技术也能够很好的提升用户的交互体验。

人机对话

百度 NLP 主任研发架构师、UNIT 技术负责人孙珂博士：对话系统的应用技术探索

2019 自然语言处理前沿论坛，百度NLP技术全揭秘

近几年来，随着智能对话逐步深入到各行各业，用户已经可以在车载、音箱、客服、机器人等场景感受到智能对话给大家的生活带来的便捷与改变。

然而，随着智能对话技术产业化落地的进一步深入，也面临了更多的挑战。例如对话系统的建设成本与效率是企业面临的很大挑战，企业需要投入大量人力和时间进行数据积累与整理、同时也要为高质量的效果与复杂系统集成付出较多的成本。

据此，百度基于多年积累的自然语言理解与交互技术、深度学习、大数据等核心能力，打造了智能对话系统定制与服务平台 UNIT，帮助开发者降低对话系统研发门槛，精确适配业务需求，训练自己的对话系统。

在 UNIT 平台中，集成了目前工业级研发比较成熟的三种主流对话系统技术，包括任务型对话系统、问答型对话系统和闲聊型对话系统。孙珂博士重点介绍了其中的任务型对话系统的实现。据介绍，在任务型对话系统中，对话理解的深度与系统的实现成本是百度 UNIT 关注的核心问题。UNIT 通过融合语义表示预训练模型 ERNIE 的对话理解模型和数据辅助生产工具 DataKit，综合节省了 60% 的任务式对话系统研发成本。

除此之外， UNIT 还针对理解中的常见错误，总结抽象了 15 套对话容错机制，并将其标品化，据介绍，该机制可以通过简单的澄清反问，大幅提升对话理解的整体达成效率。

最后，孙珂博士还展示了 UNIT 基于阅读理解技术为开发者搭建的对话式文档问答技术。通过该技术，开发者只需上传业务文档并一键训练，即可在1分钟内快速定制问答系统。

机器翻译

百度人工智能技术委员会主席何中军：机器同传进展与展望

2019 自然语言处理前沿论坛，百度NLP技术全揭秘

同声传译最早出现在 1919 年，它最突出的特点是时间延迟小，信息传递效率非常高，因此被广泛的应用于重要国际会议、外交谈判等重要场景。在同声传译的过程中，同声译员需要全神贯注地进行监听，工作强度极高。由于苛刻的要求，全球同传译员稀缺。与巨大的市场需求相比，人才严重短缺。

目前，机器同声传译技术面临着三大挑战，一是技术挑战，二是数据挑战，三是评价挑战。

技术挑战方面，第一个问题是噪声问题，由于说话人的口音、语速、现场会议噪声等因素，使得语音识别的结果存在错误。第二个问题是断句，需要对语音识别后的结果进行分句并加上标点。第三个问题是，时间延迟与准确率存在矛盾。如果要提高准确率，就需要等待说话人的具体意思表达完整之后再进行翻译，时间延迟就会比较高。第四个问题是翻译的连贯性。同传的主要场景是对演讲者的内容进行实时翻译，需要保证翻译前后内容的连贯和一致。

第二是数据挑战。面向真实场景的训练数据只有几十到几百个小时，这么少的数据对于训练一个高质量的同传系统而言远远不够。

第三是评价挑战。在文本翻译的时候，我们有足够的时间去思考、润色和加工。而在同声传译时，实时性非常强，所采用的翻译方式与文本翻译不同。针对文本的评价方式不适用于评价同传。

针对语音识别错误的问题，百度提出了联合词向量编码模型。这个模型非常简单，就是在原来文本向量的基础上引入了音节向量，使得模型具有了一定的容错能力。

百度还提出了可控时延的翻译模型，来解决时间延迟的问题。在传统的文本翻译过程中，我们要等待一个句子完全输入完毕以后才能进行翻译。百度从同传译员那里获得灵感，提出了一个可以预测的模型，在原始句子只输入几个字以后，就可以开始预测和翻译。

在语篇翻译方面，百度提出了多轮解码策略，第一遍首先进行传统的粗解码，在这个基础上，再结合句子的上下文进行第二遍精细解码。同时，引入了强化学习策略，对产生的句子进行反馈和优化，以进一步提升句子之间的流畅度。

此外，在端到端机器同传模型方面，百度提出基于知识蒸馏的同传模型。利用大规模文本翻译语料训练一个教师模型，去优化端到端的同传翻译模型。该模型可以有效克服数据稀疏问题，显著提升翻译质量。

为推动机器同传技术发展，百度翻译联合 CCMT2019（全国机器翻译研讨会）推出全球首个面向真实场景的中英同传评测任务，同时发布了首个真实演讲场景的中英同传数据集 CCMT2019-BSTC ，两项工作都将极大地推动同声传译的相关研究和发展。

何中军表示，未来，机器同传可以从以下三个方面开展工作，在模型方面，研究高鲁棒、低时延的同传模型；在数据方面，建设大规模面向真实场景的同传数据；在评价方面，建立面向同传的评价体系和标准。

雷锋网 (公众号：雷锋网) 雷锋网

雷锋网原创文章，未经授权禁止转载。详情见转载须知。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

Java并发编程的艺术

方腾飞、魏鹏、程晓明 / 机械工业出版社 / 2015-7-1 / 59.00元

并发编程领域的扛鼎之作，作者是阿里和1号店的资深Java技术专家，对并发编程有非常深入的研究，《Java并发编程的艺术》是他们多年一线开发经验的结晶。本书的部分内容在出版早期发表在Java并发编程网和InfoQ等技术社区，得到了非常高的评价。它选取了Java并发编程中最核心的技术进行讲解，从JDK源码、JVM、CPU等多角度全面剖析和讲解了Java并发编程的框架、工具、原理和方法，对Java并发编......一起来看看《Java并发编程的艺术》这本书的介绍吧!

码农工具