内容简介:EMNLP 是自然语言处理领域顶级国际会议,每年吸引世界各国近千名学者交流自然语言处理发展前沿。2018 年度 EMNLP 大会将于 10 月 31 日 - 11 月 4 日在比利时布鲁塞尔举办。昨日 EMNLP 2018 公布了两篇最佳长论文、一篇最佳短论文以及一篇最佳资源论文。EMNLP 是自然语言处理领域的顶级国际会议,每年吸引世界各国近千名学者交流自然语言处理发展前沿,前几年长文的录用率只有 26% 左右:
EMNLP 是自然语言处理领域顶级国际会议,每年吸引世界各国近千名学者交流自然语言处理发展前沿。2018 年度 EMNLP 大会将于 10 月 31 日 - 11 月 4 日在比利时布鲁塞尔举办。昨日 EMNLP 2018 公布了两篇最佳长论文、一篇最佳短论文以及一篇最佳资源论文。
EMNLP 是自然语言处理领域的顶级国际会议,每年吸引世界各国近千名学者交流自然语言处理发展前沿,前几年长文的录用率只有 26% 左右:
昨日 EMNLP 在官方 Twitter 上公布了两篇最佳长论文、一篇最佳短论文、一篇最佳资源论文,获奖论文详细信息如下:
最佳长论文
1. 论文:Linguisti cally-Informed Self-Attention for Semantic Role Labeling
论文地址:https://arxiv.org/abs/1804.08199 (http://www.zhuanzhi.ai/paper/87964e6ae3d40f170d2934d9cca009af)
摘要:当前最先进的语义角色标记(SRL)使用 深度神经网络 而没有明确的语言特征。但是,之前的工作表明,语法树可以显著改善 SRL 解码,这表明通过显式语法建模可以提高准确性。在这项工作中,我们提出了基于语言学的 self-attention(LISA):一种神经网络模型,它将 multi-head self-attention 与多任务学习相结合,包括依赖解析、词性标注、谓词检测和语义角色标记。与先前需要大量预处理来准备语言特征的模型不同,LISA 可以仅使用原始的 token 对序列进行一次编码,来同时执行多个预测任务。语法信息被用来训练一个 attention head 来关注每个 token 语法上的父节点。如果已经有高质量的语法分析,则可以在测试时进行有益的注入,而无需重新训练我们的 SRL 模型。在 CoNLL-2005 SRL 数据集上,LISA 在谓词预测、word embedding 任务上比当前最好的算法在 F1 值上高出了 2.5(新闻专线数据)和 3.5 以上(其他领域数据),减少了约 10% 的错误。在 ConLL-2012 英文角色标记任务上,我们的方法也获得了 2.5 F1 值的提升。LISA 同时也比当前最好的基于上下文的词表示学习方法(ELMo)高出了 1.0 的 F1(新闻专线数据)和多于 2.0 的 F1(其他领域数据)。
2. 论文: Phrase-Based & Neural Unsupervised Machine Translation
-
论文地址:https://arxiv.org/abs/1804.07755
-
代码地址:https://github.com/facebookresearch/UnsupervisedMT
摘要:机器翻译系统在某些语言上实现了接近人类的能力,但它的性能依赖于大量的平行双语语料,这降低了机器翻译的适用性。本研究探讨了如何在只有大规模单语种语料库的情况下进行机器翻译。我们提出了两个模型(变式),一个基于神经网络和一个基于短语的模型。两个模型都使用了精心设计的参数初始化、语言模型的降噪和基于迭代反向翻译的并行预料生成。这些模型优于引用文献中的方法,而且更简单、具有更少的超参数。在广泛使用的 WMT'14 English - French 和 WMT'16German - English基准测试中,我们的模型分别获得了 28.1 和 25.2 BLEU 点(在不使用平行预料的情况下),比当前最好的方法高出了 11 个 BLEU 点。在资源较少的语言如 English-Urdu 何 English-Romanian 中,我们的方法甚至比利用短缺的 bitexts 的半监督和监督方法要好。我们的 NMT 和 PBSMT 代码现在已经公开了。
更多内容请参见: 学界 | FAIR 新一代无监督机器翻译:模型更简洁,性能更优
最佳短论文
论文:How Much Reading Does Reading Comprehension Require? A Critical Investigation of Popular Benchmarks.
论文地址:https://arxiv.org/pdf/1808.04926.pdf
摘要:最近在阅读理解问题上有很多研究,它们一般都包含 (question, passage, answer) 元组。大概而言,阅读理解模型必须结合来自问题和文章的信息以预测对应的回答。然而,尽管这一主题非常受关注,且有数百篇论文都希望更好地解决该问题,但许多流行基准的测试难度问题仍未得到解决。在本论文中,我们为 bAbI、SQuAD、CBT、CNN 和 Whodid-What 数据集建立了合理的基线模型,并发现仅带有问题或文章的模型通常有更好的表现。在 20 个 bAbI 任务的 14 个中,仅带有文章的模型实现了高达 50% 的准确度,它有时能与全模型的性能相匹配。有趣的是,虽然 CBT 提供了 20-sentence 的故事,但只有最后一句能进行相对准确的预测。
最佳资源论文
最佳资源论文的链接暂未公开,获奖论文信息如下:
-
论文标题:MultiWOZ - A Large-Scale Multi-Domain Wizard-of-Oz Dataset for Task-Oriented Dialogue Modelling
-
作者:Paweł Budzianowski, Tsung-Hsien Wen, Bo-Hsiang Tseng, Iñigo Casanueva, Stefan Ultes, Osman Ramadan,Milica Gasic
-
参考资料:https://github.com/lixin4ever/Conference-Acceptance-Rate
以上所述就是小编给大家介绍的《EMNLP 2018 | 最佳论文出炉:谷歌、Facebook、CMU上榜》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!
猜你喜欢:- 2018 年 ACL Fellow 出炉,5 人上榜,无中国学者
- 世平信息上榜安全牛2018年中国数据库安全矩阵图
- 仅16%的交易所安全评级为A,币安未上榜
- 云资讯 2018中国金融云竞争力象限公布 20家厂商上榜
- 重磅!2018 ACM 杰出科学家名单最新公布,12 位华人学者上榜
- 首家上榜中国公司,阿里云图像识别比亚马逊快 2.36 倍
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
Python自然语言处理
(英)伯德、(英)克莱因、(美)洛普 / 东南大学出版社 / 2010-6 / 64.00元
《Python自然语言处理(影印版)》提供了非常易学的自然语言处理入门介绍,该领域涵盖从文本和电子邮件预测过滤,到自动总结和翻译等多种语言处理技术。在《Python自然语言处理(影印版)》中,你将学会编写Python程序处理大量非结构化文本。你还将通过使用综合语言数据结构访问含有丰富注释的数据集,理解用于分析书面通信内容和结构的主要算法。 《Python自然语言处理》准备了充足的示例和练习,......一起来看看 《Python自然语言处理》 这本书的介绍吧!