论文浅尝 | 基于未知谓词与实体类型知识图谱的 Zero-Shot 问题生成

栏目: 数据库 · 发布时间: 5年前

内容简介:论文笔记整理:谭亦鸣,东南大学博士生,研究方向为跨语言知识图谱问答。

论文笔记整理:谭亦鸣,东南大学博士生,研究方向为跨语言知识图谱问答。

论文浅尝 | 基于未知谓词与实体类型知识图谱的 Zero-Shot 问题生成

来源: NA ACL 2018

链接: https://www.aclweb.org/anthology/N18-1020

问题背景与动机

问题生成的目标是将知识图谱三元组作为输入,生成自然语言问题的过程。目前大多数的问题生成方法都依赖于大规模有标注数据(例如 SimpleQuestion ,基于 freebase ),但是事实上,由 75.6% 左右的 freebase 谓词并未被 SimpleQuestion 所覆盖。对于这类训练过程中谓词,实体类别均未知的问题生成模型,称之为 Zero-Short Question Generation QG )。

目前的 QG 方法主要依据已有的 QA 对数据集,当遇到未知谓词及实体类别后,问题将由随机文本生成问题。

对于上述问题,作者从以下直觉角度提出 Zero-Shot 问题生成模型:

当人们尝试根据给定知识库三元组提出问题时,会阅读包含这些实体或谓词的自然语言文本,之后依据阅读得到的词法和语法理解,将这些信息对应到问题设计当中。

贡献

1. 提出了一种基于 encoder-decoder 框架的 Zero-Shot 问题生成模型

2. 提出一种新的位置复制机制,用于处理问题生成过程中遇见的新谓词、实体类型

模型

1 是本文模型的整体 encoder-decoder 框架结构,令 F = {s,p, o} 为输入的事实信息, C 为与事实相关的上下文文本, Y 为对 F 生成的问题,整体模型的目标是,获取到 Y ,使得以下公式最大化。

论文浅尝 | 基于未知谓词与实体类型知识图谱的 Zero-Shot 问题生成

可以看到,在 encoder 部分,单个事实三元组与多组上下文语境文本分别进行了独立的嵌入过程,并设计了各自的 attention 机制,其中文本嵌入采用 glove 方法利用词向量得到句子的表示,知识图谱嵌入则采用了经典的 TransE 模型进行表示学习。

论文浅尝 | 基于未知谓词与实体类型知识图谱的 Zero-Shot 问题生成

事实三元组 encoding 过程:

对于输入的事实三元组 F = {s, p, o} ,每个实体 e s ,e p , e o 均由 K 维的 1-hot 向量表示,并利用知识嵌入矩阵 E f (由 TransE 得到)对向量进行转化 h s =E f e s , h p =E f e p , h o =E f e o ,得到 F 的编码结果表示 h f =[h s ; h p ; h o ]

上下文语境文本 encoding 过程:

对于输入的一系列与 F 相关的上下文文本,在获取到句子中词向量表示后,利用 RNN 对句子进行 embedding 。其中,文本句子 c j 的向量表示由下式获取;

论文浅尝 | 基于未知谓词与实体类型知识图谱的 Zero-Shot 问题生成

整个文本集的向量表示则通过以下方式得到

论文浅尝 | 基于未知谓词与实体类型知识图谱的 Zero-Shot 问题生成

decoder 部分则由基于 GRU RNN 构成,在问题生成过程中,每一个词的输出,都由经过 attention 机制调整权值分布后的事实表示以及相关文本上下文表示解码后得到。

其中,三元组 attention 主要对 s, p, o 的权值进行调整,

论文浅尝 | 基于未知谓词与实体类型知识图谱的 Zero-Shot 问题生成

文本 attention 则是对不同文本之间的权值分布进行调整。

论文浅尝 | 基于未知谓词与实体类型知识图谱的 Zero-Shot 问题生成

Part-of-Copy Action

与传统方法使用位置信息引导 copy 方式不同,本文采用词性信息决定输入与输出文本之间的对齐,输入文本中的每个词语都使用词性标签进行替换。当出现未登录词或者未知实体时,则通过上述对齐从文本中择词复制替换。

2 反映的就是本文采用文本加事实双输入的学习目标,即找到事实知识在文本中对应的表示形式(上下文),从而生成高质量的自然语言问句。

论文浅尝 | 基于未知谓词与实体类型知识图谱的 Zero-Shot 问题生成

实验

实验数据说明

本文使用的文本问题集来自于 SimpleQuestion ,包括 100K 的问题以及对应的三元组事实,此外,引入了 FB5M 用于扩充三元组规模,语境文本扩充方面,则引入 Wikipedia 文本数据。

总体用于实验的数据统计如下表:

论文浅尝 | 基于未知谓词与实体类型知识图谱的 Zero-Shot 问题生成

实验结果

以下是本文实验的对比结果列表

论文浅尝 | 基于未知谓词与实体类型知识图谱的 Zero-Shot 问题生成

论文浅尝 | 基于未知谓词与实体类型知识图谱的 Zero-Shot 问题生成

论文浅尝 | 基于未知谓词与实体类型知识图谱的 Zero-Shot 问题生成

以及一些事实问题生成的实际样本示例:

论文浅尝 | 基于未知谓词与实体类型知识图谱的 Zero-Shot 问题生成

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

论文浅尝 | 基于未知谓词与实体类型知识图谱的 Zero-Shot 问题生成

点击 阅读原文 ,进入 OpenKG 博客。


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

创新者的解答

创新者的解答

【美】克莱顿•克里斯坦森、【加】迈克尔·雷纳 / 中信出版社 / 2013-10-10 / 49.00

《创新者的解答》讲述为了追求创新成长机会,美国电信巨子AT&T在短短10年间,总共耗费了500亿美元。企业为了保持成功记录,会面对成长的压力以达成持续获利的目标。但是如果追求成长的方向出现偏误,后果往往比没有成长更糟。因此,如何创新,并选对正确方向,是每个企业最大的难题。 因此,如何创新,并导向何种方向,便在于创新结果的可预测性─而此可预测性则来自于正确的理论依据。在《创新者的解答》中,两位......一起来看看 《创新者的解答》 这本书的介绍吧!

HTML 压缩/解压工具
HTML 压缩/解压工具

在线压缩/解压 HTML 代码

URL 编码/解码
URL 编码/解码

URL 编码/解码

UNIX 时间戳转换
UNIX 时间戳转换

UNIX 时间戳转换