CoNLL 2018 | 最佳论文揭晓：词嵌入获得的信息远比我们想象中的要多得多

2018/10/31 12:31

参与：李亚洲、路雪作者：Mikel Artetxe

CoNLL 2018 | 最佳论文揭晓：词嵌入获得的信息远比我们想象中的要多得多

CoNLL 是自然语言处理领域的顶级会议，每年由 SIGNLL 组织举办。CoNLL 2018 大会将于 10 月 31 日-11 月 1 日在比利时布鲁塞尔举行，地点与 EMNLP 2018 一样（EMNLP 2018 将于 10 月 31 日-11 月 4 日举行）。

昨日，CoNLL 公布了最佳论文，由来自西班牙巴斯克大学 IXA NLP 组的 Mikel Artetxe 等人获得。该论文展示了词嵌入模型能够捕获不同层面的信息（如语义/句法和相似度/相关度），为如何编码不同的语言信息提供了新的视角，该研究还研究了内外部评估之间的关系。

近年来，词嵌入成为自然语言处理的核心主题。业内提出了多种无监督方法来高效地训练单词的密集型向量表征，且成功地应用到语法解析、主题建模、文档分类等多类任务。

虽然从理论角度理解这些模型是更加活跃的研究路线，但这些研究背后的基本思路都是为类似的单词分配类似的向量表征。由此，大部分词嵌入模型依赖来自大型单语语料库的共现统计信息（co-occurrence statistics），并遵循分布假设，也就是相似单词倾向于出现在相似语境中。

然而，上述论点没有定义「相似单词」的含义，且词嵌入模型实际中应该捕捉哪种关系也不完全清楚。因此一些研究者在真正相似度（如 car - automobile）与关联度（如 car - road）之间进行区分。从另一个角度来说，词语相似度可聚焦在语义（如 sing-chant）或者句法（如 sing-singing）上。我们把这两个方面作为相似度的两个坐标轴，且每一个坐标轴的两端为两种性质：语义/句法轴和相似度/关联度轴。

本论文提出了一种新方法来调整给定的任意嵌入向量集，使其在这些坐标轴中靠近特定端点。该方法受一阶和二阶共现研究的启发，可推广为词嵌入向量线性变换的连续参数，我们称之为相似度阶（similarity order）。虽然业内提出了多种学习特定词嵌入的方法，但之前的研究明确地改变了训练目标，且总是依赖知识库这样的外部资源。而本论文提出的方法可用做任意预训练词嵌入模型的后处理，不需要任何额外资源。同样，该研究表明，标准的词嵌入模型能够编码不同的语言信息，但能够直接应用的信息有限。此外，该研究也分析了该方法与内部评估和下游任务的关系。该论文主要贡献如下：

1. 提出了一个具备自由参数的线性变换，能够调整词嵌入在相似度/关联度和语义/句法坐标轴中的性能，并在词汇类推数据集和相似度数据集中进行了测试。

2. 展示了当前词嵌入方法的性能受到无法同时显现不同语言信息（例如前面提到的坐标轴）的限制。该研究提出的方法表明，词嵌入能够捕获的信息多于表面显现出的信息。

3. 展示了标准的内部评估只能给出一个静态的不完整图景，加上该研究提出的方法能够帮助我们更好地理解词嵌入模型真正编码哪些信息。

4. 展示了该方法也能运用到下游任务中，但相比于使用一般词嵌入作为输入特征的监督系统，其效果在直接使用词嵌入相似度的无监督系统上更显著，因为监督系统有足够的表达能力来学习最优变换。

总之，该研究揭示了词嵌入如何表示不同语言信息，分析了它在内部评估和下游任务中所扮演的角色，为之后的发展开创了新机遇。

论文：Uncovering divergent linguistic information in word embeddings with lessons for intrinsic and extrinsic evaluation