EMNLP 2018 抽象语义表示中使用基于转移的方法学习词到概念映射

栏目: 后端 · 发布时间: 7年前

哈工大SCIR 原创

2018/10/08 12:04

刘一佳，车万翔，郑博，秦兵，刘挺作者

EMNLP 2018 抽象语义表示中使用基于转移的方法学习词到概念映射

本文介绍哈尔滨工业大学社会计算与信息检索研究中心（HIT-SCIR）录用于EMNLP 2018的论文《An AMR Aligner Tuned by Transition-based Parser》中的工作。

论文作者：刘一佳，车万翔，郑博，秦兵，刘挺

1 简介

将自然语言分析成机器可以理解的语义表示是自然语言处理的长期以来的一个目标，抽象语义表示(AMR)是这些语义表示方式中的一种。AMR中的“抽象”指的是自然语言以句子为单位被抽象成语义图(如图1，节点表示概念，边表示概念与概念的关系)。这种抽象给标注过程带来了一定的自由。标注者在标注过程中不需要关心原始句子中词级别的语义。

EMNLP 2018 抽象语义表示中使用基于转移的方法学习词到概念映射

图1. 一个AMR的示例

句子级的抽象是AMR的特点，也是给AMR分析带来了诸多困难。现阶段，大部分的句法语义分析算法是以词为最小单位设计的，主流的AMR分析算法也不例外。Flanigan et al. [2014]提出的算法是目前大部分AMR分析算法的基础。他们的算法可以归纳为两步:首先从输入句子中识别出语义图中应该包含的概念，然后为这些概念建立关系。这种算法设计依赖于一个词到概念的映射。只有知道一个词对应哪个概念，我们才能训练概率模型自动完成从输入句子中识别出语义图中应该包含概念的目标。

那么怎样才能知道一个词对应哪个概念呢?Flanigan et al. [2014]给出了一个方案:从训练数据输入的句子和图中“猜”这种对应关系(alignment)。图2给出一个猜alignment的例子。经过数年的发展，Flanigan et al. [2014]提出的猜alignment的方法已经成为诸多AMR语义分析的基础。然而，他们的alignment远非完美。他们的“猜”法可以总结为贪心地匹配一个词与所有概念，这意味着输出唯一的alignment结果。为了提高准确率，他们的方法放弃召回一些如action到act-01的alignment;同时，alignment的好坏，对于下一步建立概念关系的模型的学习会产生怎样的影响，这些都没有考虑。这使得在人工标注的少量alignment数据中，他们的方法只有90%的准确率。

EMNLP 2018 抽象语义表示中使用基于转移的方法学习词到概念映射

图2. 从训练数据输入的句子和图中“猜”这种对应关系

而本文要做的就是提高alignment的准确率，进而提高AMR分析的性能。我们的思路可以概括成:

• 在Flanigan et al. [2014]的基础上取消“贪心匹配”过程。并用外部资源增加匹配的召回率，使得算法可以输出多个alignment候选;

• 用一个oracle parser决定上面输出的alignment哪个最好。oracle parser会保持某个alignment结果的前提下根据训练数据尽可能找到分数最高的alignment。

上面的过程可以用图3来描述。通过这种方法，我们得到了准确率更高的alignment，并且帮助提高了AMR分析的准确率。

EMNLP 2018 抽象语义表示中使用基于转移的方法学习词到概念映射

图3. 本文算法框架，其中a代表alignment，g代表AMR图，s代表AMR图比照黄金AMR图的分数。

2 实验

EMNLP 2018 抽象语义表示中使用基于转移的方法学习词到概念映射

图4. (左)手工标注alignment的准确率，(右)不同的alignment对于最终AMR分析性能的影响。

我们分析了我们的alignment在手工标注数据上的准确率。其结果如图4所示。我们的alignment优于Flanigan et al. [2014]。然后，我们将开源两个系统(JAMR:Flanigan et al. [2014]，CMAR:Wang et al. [2015])中的alignment替换为我们的alignment并比较得到的parser的性能。可以看出，我们的alignment可以稳定地提升两个开源AMR分析器的性能。

3 拓展阅读

想要更多地了解算法的细节，欢迎参考我们的论文。同时，本文的oracle parser是基于Choi and McCallum [2013]提出的使用cache处理非投射依存句法树(nonprojective dependency tree)的算法设计的。我们也在此基础上设计了自己的基于转移的AMR分析器。实验表明，这种基于转移的分析器速度快、准确率高。如果读者对于实验细节感兴趣，也欢迎参考我们的开源代码：https://github.com/Oneplus/tamr。

References

Jinho D. Choi andAndrew McCallum. Transition-based dependency parsing with selectional branching. In Proc. of ACL, 2013.

Jeffrey Flanigan, Sam Thomson, Jaime Carbonell, Chris Dyer, and Noah A. Smith. A discriminative graph-based parser for the abstract meaning repre- sentation. In Proc. of ACL, 2014.

Chuan Wang, Nianwen Xue, and Sameer Pradhan. A transition-based algorithm for amr parsing. In Proc. of NAACL, 2015.

理论 EMNLP 2018 AMR

相关数据

信息检索技术

Information Retrieval

信息检索（IR）是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

来源：机器之心

映射技术

Mapping

映射指的是具有某种特殊结构的函数，或泛指类函数思想的范畴论中的态射。逻辑和图论中也有一些不太常规的用法。其数学定义为：两个非空集合A与B间存在着对应关系f，而且对于A中的每一个元素x，B中总有有唯一的一个元素y与它对应，就这种对应为从A到B的映射，记作f：A→B。其中，y称为元素x在映射f下的象，记作：y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域，记作f(A)。同样的，在机器学习中，映射就是输入与输出之间的对应关系。

来源： Wikipedia

自然语言处理技术

Natural language processing

自然语言处理（英语：natural language processing，缩写作 NLP）是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

来源：维基百科

概率模型技术

probabilistic models

概率模型（Statistical Model，也稱為Probabilistic Model）是用来描述不同随机变量之间关系的数学模型，通常情况下刻画了一个或多个随机变量之间的相互非确定性的概率关系。从数学上讲，该模型通常被表达为，其中是观测集合用来描述可能的观测结果，是对应的概率分布函数集合。

来源：维基百科

准确率技术

Accuracy

分类模型的正确预测所占的比例。在多类别分类中，准确率的定义为：正确的预测数/样本总数。在二元分类中，准确率的定义为：(真正例数+真负例数)/样本总数

来源： Google ML Glossary

安德鲁·麦卡勒姆人物

Andrew McCallum

Andrew McCallum是马萨诸塞州阿默斯特大学计算机科学系的教授兼研究员。他的主要专业是机器学习，自然语言处理，信息提取，信息整合和社交网络分析。

涉及领域

来源：维基百科

哈工大SCIR

哈尔滨工业大学社会计算与信息检所研究中心

哈工大SCIR

哈尔滨工业大学社会计算与信息检索研究中心

Python网络数据采集

米切尔 (Ryan Mitchell) / 陶俊杰、陈小莉 / 人民邮电出版社 / 2016-3-1 / CNY 59.00

本书采用简洁强大的Python语言，介绍了网络数据采集，并为采集新式网络中的各种数据类型提供了全面的指导。第一部分重点介绍网络数据采集的基本原理：如何用Python从网络服务器请求信息，如何对服务器的响应进行基本处理，以及如何以自动化手段与网站进行交互。第二部分介绍如何用网络爬虫测试网站，自动化处理，以及如何通过更多的方式接入网络。一起来看看《Python网络数据采集》这本书的介绍吧!

码农工具