NLP预训练模型大集合！

栏目: 编程工具 · 发布时间: 6年前

内容简介：GitHub 地址：https://github.com/Separius/awesome-sentence-embedding几乎所有句子嵌入的工作原理都是这样的：给出某种词嵌入和可选编码器（例如 LSTM），句子嵌入获取语境词嵌入（contextualized word embedding）并定义某种池化（比如简单的 last pooling），然后基于此选择直接使用池化方法执行监督分类任务（如 infersent），或者生成目标序列（如 skip-thought）。这样通常我们就有了很多你从未听说过的

GitHub 地址：https://github.com/Separius/awesome-sentence-embedding

通用框架

几乎所有句子嵌入的工作原理都是这样的：给出某种词嵌入和可选编码器（例如 LSTM），句子嵌入获取语境词嵌入（contextualized word embedding）并定义某种池化（比如简单的 last pooling），然后基于此选择直接使用池化方法执行监督分类任务（如 infersent），或者生成目标序列（如 skip-thought）。这样通常我们就有了很多你从未听说过的句子嵌入，你可以对任意词嵌入做平均池化，这就是句子嵌入！

词嵌入

这部分 Separius 介绍了 19 篇相关论文，包括 GloVe 、 word2vec 、fastText 等预训练模型：

NLP预训练模型大集合！

OOV 处理

A La Carte Embedding: Cheap but Effective Induction of Semantic Feature Vectors：基于 GloVe-like 嵌入的近期结果构建 OOV 表征，依赖于使用预训练词向量和线性回归可高效学习的线性变换。
Mimicking Word Embeddings using Subword RNNs：通过学习从拼写到分布式嵌入的函数，合成地生成 OOV 词嵌入。

语境词嵌入

这部分介绍了关于语境词嵌入的 5 篇论文，包括近期大热的 BERT 。

NLP预训练模型大集合！

机器之心介绍过这五篇论文中的其中四篇，参见：

池化方法

{Last, Mean, Max}-Pooling
Special Token Pooling（如 BERT 和 OpenAI's Transformer）
A Simple but Tough-to-Beat Baseline for Sentence Embeddings：选择一种在无监督语料库上常用的词嵌入计算方法，使用词向量的加权平均值来表征句子，并且使用 PCA/SVD 进行修改。这种通用的方法有更深刻和强大的理论动机，它依赖于一个生成模型，该生成模型使用了一个语篇向量上的随机游走生成文本。
Unsupervised Sentence Representations as Word Information Series: Revisiting TF–IDF：提出了一种将句子建模为词嵌入的加权序列的无监督方法，该方法从无标注文本中学习无监督句子表征。
Concatenated Power Mean Word Embeddings as Universal Cross-Lingual Sentence Representations：将平均词嵌入的概念泛化至幂平均词嵌入。
A Compressed Sensing View of Unsupervised Text Embeddings, Bag-of-n-Grams, and LSTMs：从压缩感知理论的角度看结合多个词向量的表征。

编码器

这部分介绍了 25 篇论文，包括 Quick-Thought、InferSent、SkipThought 等预训练模型。

NLP预训练模型大集合！

评估

这部分主要介绍词嵌入、句子嵌入的评估和基准：

The Natural Language Decathlon: Multitask Learning as Question Answering
SentEval: An Evaluation Toolkit for Universal Sentence Representations
GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding
Exploring Semantic Properties of Sentence Embeddings
Fine-grained Analysis of Sentence Embeddings Using Auxiliary Prediction Tasks
How to evaluate word embeddings? On importance of data efficiency and simple supervised tasks
A Corpus for Multilingual Document Classification in Eight Languages
Olive Oil Is Made of Olives, Baby Oil Is Made for Babies: Interpreting Noun Compounds Using Paraphrases in a Neural Model
Community Evaluation and Exchange of Word Vectors at wordvectors.org
Evaluation of sentence embeddings in downstream and linguistic probing tasks

向量图

Improving Vector Space Word Representations Using Multilingual Correlation：提出了基于典型相关分析（CCA）结合多语言 evidence 和单语生成向量的方法。
A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings：提出一种新的无监督自训练方法，该方法采用更好的初始化来引导优化过程，这种方法对于不同的语言对而言尤其强大。
Unsupervised Machine Translation Using Monolingual Corpora Only：提出将机器翻译任务转换成无监督式任务。在机器翻译任务中，所需的唯一数据是两种语言中每种语言的任意语料库，而作者发现如何学习两种语言之间共同潜在空间（latent space）。参见：无需双语语料库的无监督式机器翻译

此外，Separius 还介绍了一些相关的文章和未发布代码或预训练模型的论文。

NLP预训练模型大集合！

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

UNIX网络编程卷2

W.Richard Stevens / 人民邮电出版社 / 2009-11 / 89.00元

《UNIX网络编程卷2:进程间通信(英文版·第2版)》是一部UNIX网络编程的经典之作。进程间通信(IPC)几乎是所有Unix程序性能的关键，理解IPC也是理解如何开发不同主机间网络应用程序的必要条件。《UNIX网络编程卷2:进程间通信(英文版·第2版)》从对Posix IPC和System V IPC的内部结构开始讨论，全面深入地介绍了4种IPC形式：消息传递(管道、FIFO、消息队列)、同......一起来看看《UNIX网络编程卷2》这本书的介绍吧!

码农工具