Wasserstein is all you need：构建无监督表示的统一框架

栏目: 编程工具 · 发布时间: 7年前

内容简介：瑞士洛桑联邦理工学院的研究者提出，通过将每个对象与分布估计和点估计（向量嵌入）相关联来构建单个对象或实体（及其组合）的无监督表示的统一框架。该方法可用于具有共现结构的任何无监督或监督问题（文本或其他模态）。该框架的关键工具是 Wasserstein 距离和 Wasserstein 重心。近期自然语言处理和机器学习突然备受关注和成功的主要驱动因素之一是开发了更好的数据模态表示方法，比如，语言的连续向量表示 (Mikolov et al., 2013; Pennington et al., 2014)、基于卷

瑞士洛桑联邦理工学院的研究者提出，通过将每个对象与分布估计和点估计（向量嵌入）相关联来构建单个对象或实体（及其组合）的无监督表示的统一框架。该方法可用于具有共现结构的任何无监督或监督问题（文本或其他模态）。该框架的关键工具是 Wasserstein 距离和 Wasserstein 重心。

近期自然语言处理和机器学习突然备受关注和成功的主要驱动因素之一是开发了更好的数据模态表示方法，比如，语言的连续向量表示 (Mikolov et al., 2013; Pennington et al., 2014)、基于卷积神经网络（CNN）的文本表示 (Kim, 2014; Kalchbrenner et al., 2014; Severyn and Moschitti, 2015; Deriu et al., 2017)，或通过其它神经架构（如 RNN、LSTM）的文本表示，它们都共享一个核心思路——在保留输入语义的同时，将输入实体映射到位于低维潜在空间的密集向量嵌入。

现有方法是将每个感兴趣的实体（如一个单词）表示为空间中的单个点（如其嵌入向量），而该论文提出了一种完全不同的方法。研究者基于上下文的直方图来表示每个实体（与之共现），其中上下文是合适度量空间中的点。这允许研究者将与实体相关的直方图之间的距离转换为最佳传输问题的实例 (Monge, 1781; Kantorovich, 1942; Villani, 2008)。例如，在单词作为实体的情况下，得到的框架可以直观地寻求从给定单词的上下文移动到另一个单词的上下文的成本最小化。这里的上下文可以是与我们要表示的对象共现的单词、短语、句子或一般实体，这些对象还可以是从序列数据中提取的任何类型的事件，包括电影或网络广告之类的产品 (Grbovic et al., 2015)、图中的节点 (Grover and Leskovec, 2016)，或其他实体 (Wu et al., 2017)。任何共现结构都允许构建直方图信息，这是本研究提出方法的关键构建块。

本研究提出方法的强烈动机来自于自然语言领域，其中实体（单词、短语或句子）通常具有多种语义，实体被呈现为语义。因此，考虑能够有效捕获这种固有的不确定性和多义性的表示是很重要的，研究者将论证嵌入的直方图（或概率分布）能够比单独的逐点嵌入捕获更多的信息。研究者将直方图称为感兴趣对象的分布估计，将单个上下文的各个嵌入称为点估计。

接下来，为了清晰起见，研究者将通过文本表示的具体用例讨论该框架，当上下文只是单词时，通过使用常见的正点互信息（PPMI）矩阵来计算每个单词的直方图信息。

借助最佳传输的强大力量，本研究展示了该框架如何有效用于 NLP 中的各种重要任务，包括单词和句子表示以及上下位关系（蕴涵）检测，该框架还可以在上下文的现有预训练嵌入的基础上轻松使用。

该框架与单词和上下文层次的最佳传输之间的联系为 NLP 应用中更好地利用其庞大的工具包（如 Wasserstein 距离、重心等）打下了基础，这在过去主要限于文档距离 (Kusner et al., 2015; Huang et al., 2016)。

本研究证明了构建所需的直方图几乎不需要额外的成本，因为共现计数是通过语料库的单次传输获得的。由于 Cuturi（2013）引入的熵正则化，我们可以在 GPU 上并行化、批量化地高效计算最佳传输距离。最后，获得的传输图（图 1）也提供了该框架的可解释性。