哈工大SCIR 原创
刘一佳,车万翔,郑博,秦兵,刘挺 作者
EMNLP 2018 抽象语义表示中使用基于转移的方法学习词到概念映射
本文介绍哈尔滨工业大学社会计算与信息检索研究中心(HIT-SCIR)录用于EMNLP 2018的论文《An AMR Aligner Tuned by Transition-based Parser》中的工作。
论文作者:刘一佳,车万翔,郑博,秦兵,刘挺
1 简介
将自然语言分析成机器可以理解的语义表示是自然语言处理的长期以来的一个目标,抽象语义表示(AMR)是这些语义表示方式中的一种。AMR中的“抽象”指的是自然语言以句子为单位被抽象成语义图(如图1,节点表示概念,边表示概念与概念的关系)。这种抽象给标注过程带来了一定的自由。标注者在标注过程中不需要关心原始句子中词级别的语义。
图1. 一个AMR的示例
句子级的抽象是AMR的特点,也是给AMR分析带来了诸多困难。现阶段,大部分的句法语义分析算法是以词为最小单位设计的,主流的AMR分析算法也不例外。Flanigan et al. [2014]提出的算法是目前大部分AMR分析算法的基础。他们的算法可以归纳为两步:首先从输入句子中识别出语义图中应该包含的概念,然后为这些概念建立关系。这种算法设计依赖于一个词到概念的映射。只有知道一个词对应哪个概念,我们才能训练概率模型自动完成从输入句子中识别出语义图中应该包含概念的目标。
那么怎样才能知道一个词对应哪个概念呢?Flanigan et al. [2014]给出了一个方案:从训练数据输入的句子和图中“猜”这种对应关系(alignment)。图2给出一个猜alignment的例子。经过数年的发展,Flanigan et al. [2014]提出的猜alignment的方法已经成为诸多AMR语义分析的基础。然而,他们的alignment远非完美。他们的“猜”法可以总结为贪心地匹配一个词与所有概念,这意味着输出唯一的alignment结果。为了提高准确率,他们的方法放弃召回一些如action到act-01的alignment;同时,alignment的好坏,对于下一步建立概念关系的模型的学习会产生怎样的影响,这些都没有考虑。这使得在人工标注的少量alignment数据中,他们的方法只有90%的准确率。
图2. 从训练数据输入的句子和图中“猜”这种对应关系
而本文要做的就是提高alignment的准确率,进而提高AMR分析的性能。我们的思路可以概括成:
• 在Flanigan et al. [2014]的基础上取消“贪心匹配”过程。并用外部资源增加匹配的召回率,使得算法可以输出多个alignment候选;
• 用一个oracle parser决定上面输出的alignment哪个最好。oracle parser会保持某个alignment结果的前提下根据训练数据尽可能找到分数最高的alignment。
上面的过程可以用图3来描述。 通过这种方法,我们得到了准确率更高的alignment,并且帮助提高了AMR分析的准确率。
图3. 本文算法框架,其中a代表alignment,g代表AMR图,s代表AMR图比照黄金AMR图的分数。
2 实验
图4. (左)手工标注alignment的准确率,(右)不同的alignment对于最终AMR分析性能的影响。
我们分析了我们的alignment在手工标注数据上的准确率。其结果如图4所示。我们的alignment优于Flanigan et al. [2014]。然后,我们将开源两个系统(JAMR:Flanigan et al. [2014],CMAR:Wang et al. [2015])中的alignment替换为我们的alignment并比较得到的parser的性能。可以看出,我们的alignment可以稳定地提升两个开源AMR分析器的性能。
3 拓展阅读
想要更多地了解算法的细节,欢迎参考我们的论文。同时,本文的oracle parser是基于Choi and McCallum [2013]提出的使用cache处理非投射依存句法树(nonprojective dependency tree)的算法设计的。我们也在此基础上设计了自己的基于转移的AMR分析器。实验表明,这种基于转移的分析器速度快、准确率高。如果读者对于实验细节感兴趣,也欢迎参考我们的开源代码:https://github.com/Oneplus/tamr。
References
Jinho D. Choi andAndrew McCallum. Transition-based dependency parsing with selectional branching. In Proc. of ACL, 2013.
Jeffrey Flanigan, Sam Thomson, Jaime Carbonell, Chris Dyer, and Noah A. Smith. A discriminative graph-based parser for the abstract meaning repre- sentation. In Proc. of ACL, 2014.
Chuan Wang, Nianwen Xue, and Sameer Pradhan. A transition-based algorithm for amr parsing. In Proc. of NAACL, 2015.
理论 EMNLP 2018 AMR
相关数据
Information Retrieval
信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。
来源:机器之心
Mapping
映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。
来源: Wikipedia
Natural language processing
自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。
来源: 维基百科
probabilistic models
概率模型(Statistical Model,也稱為Probabilistic Model)是用来描述不同随机变量之间关系的数学模型,通常情况下刻画了一个或多个随机变量之间的相互非确定性的概率关系。 从数学上讲,该模型通常被表达为 ,其中 是观测集合用来描述可能的观测结果, 是 对应的概率分布函数集合。
来源: 维基百科
Accuracy
分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数
Andrew McCallum
Andrew McCallum是马萨诸塞州阿默斯特大学计算机科学系的教授兼研究员。他的主要专业是机器学习,自然语言处理,信息提取,信息整合和社交网络分析。
涉及领域
来源: 维基百科
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:- 消息队列的消费语义和投递语义
- 剑桥构建视觉“语义大脑”:兼顾视觉信息和语义表示
- MyBatis从入门到精通(十一):MyBatis高级结果映射之一对多映射
- 新瓶装旧酒:语义网络,语义网,链接数据和知识图谱
- MyBatis从入门到精通(九):MyBatis高级结果映射之一对一映射
- 超强语义分割算法!基于语义流的快速而准确的场景解析
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
程序员的数学思维修炼(趣味解读)
周颖 / 清华大学出版社 / 2014-4-1 / 45.00元
本书是一本专门为程序员而写的数学书,介绍了程序设计中常用的数学知识。本书门槛不高,不需要读者精通很多高深的数学知识,只需要读者具备基本的四则运算、乘方等数学基础知识和日常生活中的基本逻辑判断能力即可。本书拒绝枯燥乏味的讲解,而是代之以轻松活泼的风格。书中列举了大量读者都很熟悉,而且非常有趣的数学实例,并结合程序设计的思维和算法加以剖析,可以训练读者的数学思维能力和程序设计能力,进而拓宽读者的视野,......一起来看看 《程序员的数学思维修炼(趣味解读)》 这本书的介绍吧!