EMNLP 2018 抽象语义表示中使用基于转移的方法学习词到概念映射

栏目: 后端 · 发布时间: 7年前

EMNLP 2018 抽象语义表示中使用基于转移的方法学习词到概念映射

哈工大SCIR 原创

刘一佳,车万翔,郑博,秦兵,刘挺 作者

EMNLP 2018 抽象语义表示中使用基于转移的方法学习词到概念映射

本文介绍哈尔滨工业大学社会计算与信息检索研究中心(HIT-SCIR)录用于EMNLP 2018的论文《An AMR Aligner Tuned by Transition-based Parser》中的工作。

论文作者:刘一佳,车万翔,郑博,秦兵,刘挺

1 简介

将自然语言分析成机器可以理解的语义表示是自然语言处理的长期以来的一个目标,抽象语义表示(AMR)是这些语义表示方式中的一种。AMR中的“抽象”指的是自然语言以句子为单位被抽象成语义图(如图1,节点表示概念,边表示概念与概念的关系)。这种抽象给标注过程带来了一定的自由。标注者在标注过程中不需要关心原始句子中词级别的语义。

EMNLP 2018 抽象语义表示中使用基于转移的方法学习词到概念映射

图1. 一个AMR的示例

句子级的抽象是AMR的特点,也是给AMR分析带来了诸多困难。现阶段,大部分的句法语义分析算法是以词为最小单位设计的,主流的AMR分析算法也不例外。Flanigan et al. [2014]提出的算法是目前大部分AMR分析算法的基础。他们的算法可以归纳为两步:首先从输入句子中识别出语义图中应该包含的概念,然后为这些概念建立关系。这种算法设计依赖于一个词到概念的映射。只有知道一个词对应哪个概念,我们才能训练概率模型自动完成从输入句子中识别出语义图中应该包含概念的目标。

那么怎样才能知道一个词对应哪个概念呢?Flanigan et al. [2014]给出了一个方案:从训练数据输入的句子和图中“猜”这种对应关系(alignment)。图2给出一个猜alignment的例子。经过数年的发展,Flanigan et al. [2014]提出的猜alignment的方法已经成为诸多AMR语义分析的基础。然而,他们的alignment远非完美。他们的“猜”法可以总结为贪心地匹配一个词与所有概念,这意味着输出唯一的alignment结果。为了提高准确率,他们的方法放弃召回一些如action到act-01的alignment;同时,alignment的好坏,对于下一步建立概念关系的模型的学习会产生怎样的影响,这些都没有考虑。这使得在人工标注的少量alignment数据中,他们的方法只有90%的准确率。

EMNLP 2018 抽象语义表示中使用基于转移的方法学习词到概念映射

图2. 从训练数据输入的句子和图中“猜”这种对应关系

而本文要做的就是提高alignment的准确率,进而提高AMR分析的性能。我们的思路可以概括成:

• 在Flanigan et al. [2014]的基础上取消“贪心匹配”过程。并用外部资源增加匹配的召回率,使得算法可以输出多个alignment候选;

• 用一个oracle parser决定上面输出的alignment哪个最好。oracle parser会保持某个alignment结果的前提下根据训练数据尽可能找到分数最高的alignment。

上面的过程可以用图3来描述。 通过这种方法,我们得到了准确率更高的alignment,并且帮助提高了AMR分析的准确率。

EMNLP 2018 抽象语义表示中使用基于转移的方法学习词到概念映射

图3. 本文算法框架,其中a代表alignment,g代表AMR图,s代表AMR图比照黄金AMR图的分数。

2 实验

EMNLP 2018 抽象语义表示中使用基于转移的方法学习词到概念映射

图4. (左)手工标注alignment的准确率,(右)不同的alignment对于最终AMR分析性能的影响。

我们分析了我们的alignment在手工标注数据上的准确率。其结果如图4所示。我们的alignment优于Flanigan et al. [2014]。然后,我们将开源两个系统(JAMR:Flanigan et al. [2014],CMAR:Wang et al. [2015])中的alignment替换为我们的alignment并比较得到的parser的性能。可以看出,我们的alignment可以稳定地提升两个开源AMR分析器的性能。

3 拓展阅读

想要更多地了解算法的细节,欢迎参考我们的论文。同时,本文的oracle parser是基于Choi and McCallum [2013]提出的使用cache处理非投射依存句法树(nonprojective dependency tree)的算法设计的。我们也在此基础上设计了自己的基于转移的AMR分析器。实验表明,这种基于转移的分析器速度快、准确率高。如果读者对于实验细节感兴趣,也欢迎参考我们的开源代码:https://github.com/Oneplus/tamr。

References

Jinho D. Choi andAndrew McCallum. Transition-based dependency parsing with selectional branching. In Proc. of ACL, 2013.

Jeffrey Flanigan, Sam Thomson, Jaime Carbonell, Chris Dyer, and Noah A. Smith. A discriminative graph-based parser for the abstract meaning repre- sentation. In Proc. of ACL, 2014.

Chuan Wang, Nianwen Xue, and Sameer Pradhan. A transition-based algorithm for amr parsing. In Proc. of NAACL, 2015.

理论 EMNLP 2018 AMR

相关数据

信息检索 技术

Information Retrieval

信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

来源:机器之心

映射 技术

Mapping

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

来源: Wikipedia

Natural language processing

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

来源: 维基百科

概率模型 技术

probabilistic models

概率模型(Statistical Model,也稱為Probabilistic Model)是用来描述不同随机变量之间关系的数学模型,通常情况下刻画了一个或多个随机变量之间的相互非确定性的概率关系。 从数学上讲,该模型通常被表达为 ,其中 是观测集合用来描述可能的观测结果, 是 对应的概率分布函数集合。

来源: 维基百科

准确率 技术

Accuracy

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

来源: Google ML Glossary

安德鲁·麦卡勒姆 人物

Andrew McCallum

Andrew McCallum是马萨诸塞州阿默斯特大学计算机科学系的教授兼研究员。他的主要专业是机器学习,自然语言处理,信息提取,信息整合和社交网络分析。

涉及领域

来源: 维基百科

EMNLP 2018 抽象语义表示中使用基于转移的方法学习词到概念映射
哈工大SCIR

哈尔滨工业大学社会计算与信息检所研究中心

EMNLP 2018 抽象语义表示中使用基于转移的方法学习词到概念映射
哈工大SCIR

哈尔滨工业大学社会计算与信息检索研究中心


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

Web Caching

Web Caching

Duane Wessels / O'Reilly Media, Inc. / 2001-6 / 39.95美元

On the World Wide Web, speed and efficiency are vital. Users have little patience for slow web pages, while network administrators want to make the most of their available bandwidth. A properly design......一起来看看 《Web Caching》 这本书的介绍吧!

JSON 在线解析
JSON 在线解析

在线 JSON 格式化工具

RGB转16进制工具
RGB转16进制工具

RGB HEX 互转工具

HEX CMYK 转换工具
HEX CMYK 转换工具

HEX CMYK 互转工具