论文浅尝 | 基于未知谓词与实体类型知识图谱的 Zero-Shot 问题生成

栏目: 数据库 · 发布时间: 6年前

内容简介:论文笔记整理:谭亦鸣,东南大学博士生,研究方向为跨语言知识图谱问答。

论文笔记整理:谭亦鸣,东南大学博士生,研究方向为跨语言知识图谱问答。

论文浅尝 | 基于未知谓词与实体类型知识图谱的 Zero-Shot 问题生成

来源: NA ACL 2018

链接: https://www.aclweb.org/anthology/N18-1020

问题背景与动机

问题生成的目标是将知识图谱三元组作为输入,生成自然语言问题的过程。目前大多数的问题生成方法都依赖于大规模有标注数据(例如 SimpleQuestion ,基于 freebase ),但是事实上,由 75.6% 左右的 freebase 谓词并未被 SimpleQuestion 所覆盖。对于这类训练过程中谓词,实体类别均未知的问题生成模型,称之为 Zero-Short Question Generation QG )。

目前的 QG 方法主要依据已有的 QA 对数据集,当遇到未知谓词及实体类别后,问题将由随机文本生成问题。

对于上述问题,作者从以下直觉角度提出 Zero-Shot 问题生成模型:

当人们尝试根据给定知识库三元组提出问题时,会阅读包含这些实体或谓词的自然语言文本,之后依据阅读得到的词法和语法理解,将这些信息对应到问题设计当中。

贡献

1. 提出了一种基于 encoder-decoder 框架的 Zero-Shot 问题生成模型

2. 提出一种新的位置复制机制,用于处理问题生成过程中遇见的新谓词、实体类型

模型

1 是本文模型的整体 encoder-decoder 框架结构,令 F = {s,p, o} 为输入的事实信息, C 为与事实相关的上下文文本, Y 为对 F 生成的问题,整体模型的目标是,获取到 Y ,使得以下公式最大化。

论文浅尝 | 基于未知谓词与实体类型知识图谱的 Zero-Shot 问题生成

可以看到,在 encoder 部分,单个事实三元组与多组上下文语境文本分别进行了独立的嵌入过程,并设计了各自的 attention 机制,其中文本嵌入采用 glove 方法利用词向量得到句子的表示,知识图谱嵌入则采用了经典的 TransE 模型进行表示学习。

论文浅尝 | 基于未知谓词与实体类型知识图谱的 Zero-Shot 问题生成

事实三元组 encoding 过程:

对于输入的事实三元组 F = {s, p, o} ,每个实体 e s ,e p , e o 均由 K 维的 1-hot 向量表示,并利用知识嵌入矩阵 E f (由 TransE 得到)对向量进行转化 h s =E f e s , h p =E f e p , h o =E f e o ,得到 F 的编码结果表示 h f =[h s ; h p ; h o ]

上下文语境文本 encoding 过程:

对于输入的一系列与 F 相关的上下文文本,在获取到句子中词向量表示后,利用 RNN 对句子进行 embedding 。其中,文本句子 c j 的向量表示由下式获取;

论文浅尝 | 基于未知谓词与实体类型知识图谱的 Zero-Shot 问题生成

整个文本集的向量表示则通过以下方式得到

论文浅尝 | 基于未知谓词与实体类型知识图谱的 Zero-Shot 问题生成

decoder 部分则由基于 GRU RNN 构成,在问题生成过程中,每一个词的输出,都由经过 attention 机制调整权值分布后的事实表示以及相关文本上下文表示解码后得到。

其中,三元组 attention 主要对 s, p, o 的权值进行调整,

论文浅尝 | 基于未知谓词与实体类型知识图谱的 Zero-Shot 问题生成

文本 attention 则是对不同文本之间的权值分布进行调整。

论文浅尝 | 基于未知谓词与实体类型知识图谱的 Zero-Shot 问题生成

Part-of-Copy Action

与传统方法使用位置信息引导 copy 方式不同,本文采用词性信息决定输入与输出文本之间的对齐,输入文本中的每个词语都使用词性标签进行替换。当出现未登录词或者未知实体时,则通过上述对齐从文本中择词复制替换。

2 反映的就是本文采用文本加事实双输入的学习目标,即找到事实知识在文本中对应的表示形式(上下文),从而生成高质量的自然语言问句。

论文浅尝 | 基于未知谓词与实体类型知识图谱的 Zero-Shot 问题生成

实验

实验数据说明

本文使用的文本问题集来自于 SimpleQuestion ,包括 100K 的问题以及对应的三元组事实,此外,引入了 FB5M 用于扩充三元组规模,语境文本扩充方面,则引入 Wikipedia 文本数据。

总体用于实验的数据统计如下表:

论文浅尝 | 基于未知谓词与实体类型知识图谱的 Zero-Shot 问题生成

实验结果

以下是本文实验的对比结果列表

论文浅尝 | 基于未知谓词与实体类型知识图谱的 Zero-Shot 问题生成

论文浅尝 | 基于未知谓词与实体类型知识图谱的 Zero-Shot 问题生成

论文浅尝 | 基于未知谓词与实体类型知识图谱的 Zero-Shot 问题生成

以及一些事实问题生成的实际样本示例:

论文浅尝 | 基于未知谓词与实体类型知识图谱的 Zero-Shot 问题生成

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

论文浅尝 | 基于未知谓词与实体类型知识图谱的 Zero-Shot 问题生成

点击 阅读原文 ,进入 OpenKG 博客。


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

正当法律程序简史

正当法律程序简史

(美)约翰·V.奥尔特 / 杨明成、陈霜玲 / 商务印书馆 / 2006-8 / 14.00元

本书的主题——正当法律程序,是英美法的核心概念,它使诸如法治、经济自由、个人自治以及免于政府专断行为的侵害等价值观念具体化,因而是法学领域一个永恒的主题,数百年以来一直是法学家、法官及律师关注的重点。本书以极为简洁、精确的语言总结了五百年法律发展的恢弘历史,为人们描述了正当法律程序观念发展演变的清晰轨迹。而沿着这条轨迹,人们可以准确地了解正当法律程序这一重要概念所包含的广泛的问题。 作为一本......一起来看看 《正当法律程序简史》 这本书的介绍吧!

图片转BASE64编码
图片转BASE64编码

在线图片转Base64编码工具

SHA 加密
SHA 加密

SHA 加密工具

Markdown 在线编辑器
Markdown 在线编辑器

Markdown 在线编辑器