普适注意力：用于机器翻译的2D卷积神经网络，显著优于编码器-解码器架构

2018/08/29 2:17

李诗萌张倩编译

普适注意力：用于机器翻译的2D卷积神经网络，显著优于编码器-解码器架构

现有的当前最佳机器翻译系统都是基于编码器-解码器架构的，二者都有注意力机制，但现有的注意力机制建模能力有限。本文提出了一种替代方法，这种方法依赖于跨越两个序列的单个 2D 卷积神经网络。该网络的每一层都会根据当前生成的输出序列重新编码源 token。因此类似注意力机制的属性适用于整个网络。该模型得到了非常出色的结果，比当前最佳的编码器-解码器系统还要出色，而且从概念上讲，该模型也更加简单、参数更少。

引言

深度神经网络对自然语言处理技术造成了深远的影响，尤其是机器翻译（Blunsom, 2013; Sutskever et al., 2014; Cho et al., 2014; Jean et al., 2015; LeCun et al., 2015）。可以将机器翻译视为序列到序列的预测问题，在这类问题中，源序列和目标序列的长度不同且可变。目前的最佳方法基于编码器-解码器架构（Blunsom, 2013; Sutskever et al., 2014; Cho et al., 2014; Bahdanau et al., 2015）。编码器「读取」长度可变的源序列，并将其映射到向量表征中去。解码器以该向量为输入，将其「写入」目标序列，并在每一步用生成的最新的单词更新其状态。基本的编码器-解码器模型一般都配有注意力模型（Bahdanau et al., 2015），这样就可以在解码过程中重复访问源序列。在给定解码器当前状态的情况下，可以计算出源序列中的元素的概率分布，然后使用计算得到的概率分布将这些元素的特征选择或聚合在解码器使用的单个「上下文」向量中。与依赖源序列的全局表征不同，注意力机制（attention mechanism）允许解码器「回顾」源序列，并专注于突出位置。除了归纳偏置外，注意力机制还绕过了现在大部分架构都有的梯度消失问题。

但现有的注意力机制建模能力有限，一般是对源表征的权重求和（Bahdanau et al., 2015; Luong et al., 2015），在这些模型中，这里的权重是源元素和目标元素的简单匹配。注意力模块将相同的源词编码重新组合，在解码时就无法重新编码或重新解释源序列。

为了克服这些局限，我们提出了一种基于深度 2D卷积神经网络的可替代神经 MT 架构。源序列和目标序列中的位置的积空间定义了用于定义网络的 2D 网格。屏蔽卷积核，使其无法访问源自目标序列未来 token 的信息，从而获得与图像和音频波形中常用的生成模型（Oord et al., 2016a,b）类似的自回归模型（autoregressive model）。相关说明请参见图 1。

这种方法允许我们根据一堆 2D 卷积层学到深度特征的层次关系，并从训练过程中的并行运算受益。我们的网络的每一层都能根据目前生成的目标序列计算出源 token 的特征，并利用这些特征预测出下一个输出 token。因此，我们的模型通过构造类似注意力的能力，使这种能力适用于网络的所有层，而不是「添加」一个注意力模型。

我们在 IWSLT 2014 的德译英 (De-En) 和英译德 (En-De) 任务上通过实验验证了模型。我们改良了目前最佳的具备注意力机制的编码器-解码器模型，同时，从概念上讲我们的模型更加简单，参数更少。