内容简介:瑞士洛桑联邦理工学院的研究者提出,通过将每个对象与分布估计和点估计(向量嵌入)相关联来构建单个对象或实体(及其组合)的无监督表示的统一框架。该方法可用于具有共现结构的任何无监督或监督问题(文本或其他模态)。该框架的关键工具是 Wasserstein 距离和 Wasserstein 重心。近期自然语言处理和机器学习突然备受关注和成功的主要驱动因素之一是开发了更好的数据模态表示方法,比如,语言的连续向量表示 (Mikolov et al., 2013; Pennington et al., 2014)、基于卷
瑞士洛桑联邦理工学院的研究者提出,通过将每个对象与分布估计和点估计(向量嵌入)相关联来构建单个对象或实体(及其组合)的无监督表示的统一框架。该方法可用于具有共现结构的任何无监督或监督问题(文本或其他模态)。该框架的关键 工具 是 Wasserstein 距离和 Wasserstein 重心。
近期自然语言处理和机器学习突然备受关注和成功的主要驱动因素之一是开发了更好的数据模态表示方法,比如,语言的连续向量表示 (Mikolov et al., 2013; Pennington et al., 2014)、基于卷积神经网络(CNN)的文本表示 (Kim, 2014; Kalchbrenner et al., 2014; Severyn and Moschitti, 2015; Deriu et al., 2017),或通过其它神经架构(如 RNN、LSTM)的文本表示,它们都共享一个核心思路——在保留输入语义的同时,将输入实体映射到位于低维潜在空间的密集向量嵌入。
现有方法是将每个感兴趣的实体(如一个单词)表示为空间中的单个点(如其嵌入向量),而该论文提出了一种完全不同的方法。研究者基于上下文的直方图来表示每个实体(与之共现),其中上下文是合适度量空间中的点。这允许研究者将与实体相关的直方图之间的距离转换为最佳传输问题的实例 (Monge, 1781; Kantorovich, 1942; Villani, 2008)。例如,在单词作为实体的情况下,得到的框架可以直观地寻求从给定单词的上下文移动到另一个单词的上下文的成本最小化。这里的上下文可以是与我们要表示的对象共现的单词、短语、句子或一般实体,这些对象还可以是从序列数据中提取的任何类型的事件,包括电影或网络广告之类的产品 (Grbovic et al., 2015)、图中的节点 (Grover and Leskovec, 2016),或其他实体 (Wu et al., 2017)。任何共现结构都允许构建直方图信息,这是本研究提出方法的关键构建块。
本研究提出方法的强烈动机来自于自然语言领域,其中实体(单词、短语或句子)通常具有多种语义,实体被呈现为语义。因此,考虑能够有效捕获这种固有的不确定性和多义性的表示是很重要的,研究者将论证嵌入的直方图(或概率分布)能够比单独的逐点嵌入捕获更多的信息。研究者将直方图称为感兴趣对象的分布估计,将单个上下文的各个嵌入称为点估计。
接下来,为了清晰起见,研究者将通过文本表示的具体用例讨论该框架,当上下文只是单词时,通过使用常见的正点互信息(PPMI)矩阵来计算每个单词的直方图信息。
借助最佳传输的强大力量,本研究展示了该框架如何有效用于 NLP 中的各种重要任务,包括单词和句子表示以及上下位关系(蕴涵)检测,该框架还可以在上下文的现有预训练嵌入的基础上轻松使用。
该框架与单词和上下文层次的最佳传输之间的联系为 NLP 应用中更好地利用其庞大的工具包(如 Wasserstein 距离、重心等)打下了基础,这在过去主要限于文档距离 (Kusner et al., 2015; Huang et al., 2016)。
本研究证明了构建所需的直方图几乎不需要额外的成本,因为共现计数是通过语料库的单次传输获得的。由于 Cuturi(2013)引入的熵正则化,我们可以在 GPU 上并行化、批量化地高效计算最佳传输距离。最后,获得的传输图(图 1)也提供了该框架的可解释性。
图 1:大象和哺乳动物直方图之间最佳传输的图示。这里,研究者从两个直方图的前 20 个上下文的列表(就 PPMI 而言)中随机选择四个上下文。然后使用正则化的 Wasserstein 距离(如公式(4)所示),绘制所获得的传输矩阵(或通常称为传输图)T,如上所述。
论文:Wasserstein is all you need
论文链接: https://arxiv.org/pdf/1808.09663v1.pdf
摘要:我们提出了通过将每个对象与分布估计和点估计(向量嵌入)相关联,来构建单个对象或实体(及其组合)的无监督表示的统一框架。这可以通过使用最佳传输来实现,这使我们能够在利用背景空间(ground space)的基础几何结构的同时建立这些相关估计。我们的方法为构建丰富而强大的特征表示提供了新的视角,这些表示可以同时(通过分布估计)捕获不确定性和(使用最佳传输图)捕获可解释性。作为一个指导性的例子,我们为文本制定了无监督表示,特别是对于句子表示和蕴涵检测。实验结果显示我们提出的框架获得了很大的优势。该方法可用于具有共现结构的任何无监督或监督问题(文本或其他模态),例如任何序列数据。该框架的关键工具是 Wasserstein 距离和 Wasserstein 重心(因此才有了现在的论文标题!)。
图 2:三个单词的图示,每个单词都有其分布估计(左)、相关上下文的点估计(中),以及联合表示(右)。
表 2:蕴涵向量(entailment vector)和最佳运输/基于 Wasserstein 的蕴涵测量(WE)之间的比较。得分为 AP @ all(%)。超参数 α 指的是平滑指数,s 指 PPMI 计算中的位移。附录 A 中的表 4 列出了更多数据集。
表 3:蕴涵向量,最佳运输/基于 Wasserstein 的蕴涵测量(WE)和其他当前最优方法之间的比较。GE + C 和 GE + KL 分别是具有余弦相似度和负 KL 散度的高斯嵌入。当我们使用相同的评估设置时,GE + C、GE + KL 和 DIVE + C·ΔS 的得分取自 (Chang et al., 2017),分数是 AP @ all(%)。
结论
总而言之,我们得出将分布估计和点估计相关联作为每个实体的表示。我们展示了该方法允许在共现结构问题中使用与这些实体相关联的上下文集合的最优传输。此外,该框架能够与现有的指针估计和嵌入有效地结合,并且在多个 NLP 任务上展示了它的性能。最后,我们的方法为构建丰富的特征表示提供了独特的视角,这些表示能够同时捕获不确定性和可解释性。
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:- 测试框架原理,构建成功的基石
- Golang构建简单web框架
- [译] 构建微服务的十大 Go 框架/库
- 【02-中间件】构建go web框架
- asp.net mvc构建自己的源码框架
- 前端下半场:构建跨框架的 UI 库
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
Java高并发编程详解
汪文君 / 机械工业出版社 / 2018-6 / 89.00元
本书共分为四个部分:部分详细地介绍了Java多线程的基本用法和各个API的使用,并且着重介绍了线程与Java虚拟机内存之间的关系。第二部分由线程上下文类加载器方法引入,介绍为什么在线程中要有上下文类加载器的方法函数,从而掌握类在JVM的加载和初始化的整个过程。第三部分主要围绕着volatile关键字展开,在该部分中我们将会了解到现代CPU的架构以及Java的内存模型(JMM)。后一部分,主要站在架......一起来看看 《Java高并发编程详解》 这本书的介绍吧!