EMNLP2018上FB、谷歌继续并肩「刷榜」,瓜分最佳长论文和十分之一接受论文

栏目: 编程工具 · 发布时间: 6年前

内容简介:雷锋网 AI 科技评论按,不过学术界显然不会满足于词嵌入一种方法,2018 年发表的成果就多样化地

EMNLP2018上FB、谷歌继续并肩「刷榜」,瓜分最佳长论文和十分之一接受论文

雷锋网 AI 科技评论按, 自然语言处理顶会 EMNLP 2018 已经于 10 月 31 日开始了 Tutorial ,正会将从 11 月 2 日开始。2017 年中,词嵌入(word-embedding)毫无疑问是最为火热的方法,以至于有人开玩笑说 EMNLP 的名称「自然语言处理实证方法(Empirical Methods in Natural Language Processing)」还不如解释为「自然语言处理嵌入方法(Embedding Methods in Natural Language Processing)」。 

不过学术界显然不会满足于词嵌入一种方法,2018 年发表的成果就多样化地 在更有难度的任务的尝试、对已有方法的更深入的探讨、对新方向的探索中展现了计算语言学的更多可能 。这股新风气在同为自然语言处理顶会的ACL 2018 的参会见闻中也有详细说明。

作为有专门的人工智能学术性研究院、有大规模团队和高额科研预算的企业,Facebook 和谷歌一如既往地在 EMNLP 2018 上收获颇丰。 Facebook 有 14 篇论文被 EMNLP 接受,谷歌则有多达 26 篇 (有一篇是两者合作完成)。虽然目前 EMNLP 还没有正式宣布论文接受数目,但雷锋网 AI 科技评论预计这个数目大概会在四百多篇。这样一来, 有接近 10% 的收录论文就直接被 Facebook 和谷歌「承包」了。而且,EMNLP 2018 的两篇最佳长论文也刚好一篇出自 Facebook,一篇出自谷歌

下面我们来详细看看这些研究成果。(文末提供这 39 篇论文的打包下载)

谷歌成果

(也许与谷歌的研究人员人数众多有关,)谷歌在这次 EMNLP 2018 中的参与程度非常高。不仅有多位谷歌研究员将会在 EMNLP 大会中发表演讲,涉及主题包括语言身份识别、分割、语义解析、问答系统,还有许多人员参与到了会议各个级别的组织工作中。

借着论文被接受,谷歌也隆重推出了四个用于 NLP 任务的数据集。与现有的学术数据集在较理想的环境下进行评估不同,这四个新的数据集更关注的是实际部署的 NLP 系统会遇到的不那么规范的用户输入,都包含了真实的、自然人类交流中会出现的文本。同时这四个数据集也可以两类,一类是对目前已经过较多研究的核心 NLP 任务提出更高的挑战,另一类则是在对语句重构/编辑并保持语义不变的条件下鼓励探索新的研究方向。这些数据集的收集方式也非常有趣,让人不得不感慨这个时代真是数据无处不在、无所不能。

数据集列表

Noun-Verb Ambiguity in POS Tagging Dataset,部分对话标注中的非动词单词歧义性数据集。出自论文《A Challenge Set and Methods for Noun-Verb Ambiguity》。这个数据集研究了非动词单词歧义性引起的部分对话标注中的错误。数据集中包含了 3 万个经过标注的人类语言中自然出现的非平凡的非动词单词歧义的例子。不同的部分对话标注方法的准确率在这个数据集上分布在 57% 到 75% 之间。

Query Wellformedness Dataset,问题完备性数据集。出自论文《Identifying Well-formed Natural Language Questions》。这个数据集研究了搜索引擎中通常由关键词简单串联起来形成的用户输入与自然语言表述的完整句子构成的问答之间的关系。在实际应用中,区分关键词组成的搜索词组与自然语言问句也有很大的应用价值。这个数据集中包含了 2.5 万个标注问句,并且带有评分,评价这些问句与形式完备的自然语言问句之间的接近程度。

WikiSplit 数据集,分割与重新组织语句的语料。出自论文《Learning To Split and Rephrase From Wikipedia Edit History》。这个数据集是从维基百科的编辑记录中抽取样本,专门关注了从一个长句拆分成两个独立的短句,同时这两个短句合起来表示的意思和原来的长句相同的样本。这个数据集包含了一百万个句子拆分样本,词汇量超过为六十万词。

WikiAtomicEdits 数据集,来自原子性的维基百科编辑记录的多语言对照语料。出自论文《WikiAtomicEdits: A Multilingual Corpus of Wikipedia Edits for Modeling Language and Discourse》。研究人们编辑维基百科时的语言运用方式可以用来理解语言自己的结构。在这项研究中,谷歌的研究人员们专门关注了两种原子编辑操作:对一段连续的文本的一次性插入或者删除操作。他们从编辑记录中提取出了涵盖 8 中语言的共四千三百万次这样的编辑操作,并表明了这些操作对于语言的蕴含和论述提供了有价值的信息。

论文列表

A Challenge Set and Methods for Noun-Verb Ambiguity

A Fast, Compact, Accurate Model for Language Identification of Codemixed Text

AirDialogue: An Environment for Goal-Oriented Dialogue Research

Content Explorer: Recommending Novel Entities for a Document Writer

Deep Relevance Ranking using Enhanced Document-Query Interactions

HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering

Identifying Well-formed Natural Language Questions

Learning To Split and Rephrase From Wikipedia Edit History

Linguistically-Informed Self-Attention for Semantic Role Labeling

Open Domain Question Answering Using Early Fusion of Knowledge Bases and Text

Noise Contrastive Estimation for Conditional Models: Consistency and Statistical Efficiency

Part-of-Speech Tagging for Code-Switched, Transliterated Texts without Explicit Language Identification

Phrase-Indexed Question Answering: A New Challenge for Scalable Document Comprehension

Policy Shaping and Generalized Update Equations for Semantic Parsing from Denotations

Revisiting Character-Based Neural Machine Translation with Capacity and Compression

Self-governing neural networks for on-device short text classification

Semi-Supervised Sequence Modeling with Cross-View Training

State-of-the-art Chinese Word Segmentation with Bi-LSTMs

Subgoal Discovery for Hierarchical Dialogue Policy Learning

SwitchOut: an Efficient Data Augmentation Algorithm for Neural Machine Translation

The Importance of Generation Order in Language Modeling

Training Deeper Neural Machine Translation Models with Transparent Attention

Understanding Back-Translation at Scale

Unsupervised Natural Language Generation with Denoising Autoencoders

WikiAtomicEdits: A Multilingual Corpus of Wikipedia Edits for Modeling Language and Discourse

WikiConv: A Corpus of the Complete Conversational History of a Large Online Collaborative Community

Facebook

与谷歌类似,Facebook 也在开发新的数据集上花了不少功夫。他们这次在 EMNLP 2018 上带来的数据集是 XNLI,它可以用于自然语言处理中的跨语言处理方法。这个数据集在目前广泛使用的 MultiNLI 多风格自然语言推理语料库基础上增加了 14 种新的语言,其中包括了两种稀缺语料资源的语言斯瓦希里语与乌尔都语。

论文列表

A Dataset for Telling the Stories of Social Media Videos

Auto-Encoding Dictionary Definitions into Consistent Word Embeddings

Do explanations make VQA models more predictable to a human?

Dynamic Meta-Embeddings for Improved Sentence Representations

Extending Neural Generative Conversational Model using External Knowledge Sources

How agents see things: On visual representations in an emergent language game

Loss in Translation: Learning Bilingual Word Mapping with a Retrieval Criterion

Neural Compositional Denotational Semantics for Question Answering

Non-Adversarial Unsupervised Word Translation

Phrase-Based & Neural Unsupervised Machine Translation

Semantic Parsing for Task Oriented Dialog using Hierarchical Representations

Training Millions of Personalized Dialogue Agents

Understanding Back-Translation at Scale

XNLI: Evaluating Cross-lingual Sentence Representations

论文打包下载请访问 http://ai.yanxishe.com/page/resourceDetail/622 。更多 EMNLP 2018 报道,请继续关注雷锋网 (公众号:雷锋网) AI 科技评论。

雷锋网原创文章,未经授权禁止转载。详情见 转载须知


以上所述就是小编给大家介绍的《EMNLP2018上FB、谷歌继续并肩「刷榜」,瓜分最佳长论文和十分之一接受论文》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

个体崛起

个体崛起

水木然 / 2017-8-1 / 49.00

互联网时代,社会的组织结构发生着巨变,个体经济将开始大放异彩,未来社会经济的基本单元不再是企业,而是个体。 在这种变化中,如何围绕核心竞争力来构建商业模式,在市场上取得独特地位?每个人的核心竞争力是什么?本书围绕经济战略布局、个体发展规划的生存模式予以分析与梳理,同时把个人命运与国家命脉紧密联系在一起,充满正能量,旨在给读者以反思与启示。一起来看看 《个体崛起》 这本书的介绍吧!

HTML 压缩/解压工具
HTML 压缩/解压工具

在线压缩/解压 HTML 代码

MD5 加密
MD5 加密

MD5 加密工具

XML、JSON 在线转换
XML、JSON 在线转换

在线XML、JSON转换工具