论文浅尝 | 引入“引用”的语言模型

内容简介：笔记整理：杨帆，浙江大学硕士，研究方向知识图谱.

笔记整理：杨帆，浙江大学硕士，研究方向知识图谱.

论文浅尝 | 引入“引用”的语言模型

论文链接 ： https://arxiv.org/pdf/1611.01628.pdf

动机

Referring expression （ RE ）在自然语言中十分常见，并且在信息交流中扮演了十分重要的角色，但是之前的工作并没有在语言模型中明确地引入 RE ，作者在这篇论文中明确对 RE 建模，将其纳入语言模型之中，用以提高文本生成的表现。

贡献

1. 提出了对自然语言中的 reference （引用）进行建模的框架

2. 提出了第一个对引用建模的神经模型，可以根据上下文生成引用的具体表现形式

3. 在三个数据集上对模型进行综合评估，验证了提出的模型比 baseline 表现更好

模型

和传统的语言模型相比不同的是，作者在每个位置引入了一个随机变量 z_i ，用以决定该位置如何生成相应的单词，形式化的条件概率如下：

论文浅尝 | 引入“引用”的语言模型

其中 z_i 在不同的上下文中有着不同的含义。作者分别从三项具体的任务出发详细阐述了对应的模型，分别为 1 ） referenceto lists 2 ） referenceto databases 3 ） referenceto document context 。

论文浅尝 | 引入“引用”的语言模型

1）Reference to lists

该项任务主要考虑引用一个列表中的元素，这种任务有着很广泛的应用，比如根据文本生成对应文档，作者此处以根据食材生成食谱为例。

首先利用 encoder 对 list 中各个元素（食材）编码，将最后的输出作为 decoder 的初始输入，然后将 decoder 的每个输出与 list 中所有项目做 attention 得到，再利用 decoder 输出和 attention 值生成论文浅尝 | 引入“引用”的语言模型以及传统 sequence to sequence 模型的输出。可以看作一个开关，用于控制下一个单词是从 list 中复制还是根据 softmax 生成，而和分别对应最终生成的单词。具体的计算过程如下：

论文浅尝 | 引入“引用”的语言模型

2）Reference to databases

论文浅尝 | 引入“引用”的语言模型

此类任务基础框架和前一项任务相同，但是外部数据源从列表变为了表格（数据库），则通过下列过程生成。

论文浅尝 | 引入“引用”的语言模型

3）Reference document context

该项任务旨在生成文本时生成对前文出现的实体的引用，当 z_i =0，下一个单词通过 softmax 生成，当 z_i =1 ，下一个单词根据 h_e 生成，此处与前两项任务不同的是，前两项任务从外部数据源（列表或数据库）直接复制，而该任务是前文出现的实体变换之后得到对应的单词，概率形式如下：

论文浅尝 | 引入“引用”的语言模型