【NLP】Attention原理和源码解析

栏目: 编程工具 · 发布时间: 6年前

内容简介:对attention一直停留在浅层的理解,看了几篇介绍思想及原理的文章,也没实践过,今天立个Flag,一天深入原理和源码!如果你也是处于attention model level one的状态,那不妨好好看一下啦。P.S. 拒绝长篇大论,适合有基础的同学快速深入attention,不明白的地方请留言咨询~

对attention一直停留在浅层的理解,看了几篇介绍思想及原理的文章,也没实践过,今天立个Flag,一天深入原理和源码!如果你也是处于attention model level one的状态,那不妨好好看一下啦。

内容:

  1. 核心思想
  2. 原理解析(图解+公式)
  3. 模型分类
  4. 优缺点
  5. TF源码解析

P.S. 拒绝长篇大论,适合有基础的同学快速深入attention,不明白的地方请留言咨询~

1. 核心思想

Attention的思想理解起来比较容易,就是在decoding阶段对input中的信息赋予不同权重。在nlp中就是针对sequence的每个time step input,在cv中就是针对每个pixel。

2. 原理解析

针对Seq2seq翻译来说,rnn-based model差不多是图1的样子:

【NLP】Attention原理和源码解析
图1 传统rnn-based model

而比较基础的加入attention与rnn结合的model是下面的样子(也叫soft attention):

【NLP】Attention原理和源码解析
【NLP】Attention原理和源码解析

其中 【NLP】Attention原理和源码解析【NLP】Attention原理和源码解析 对应的权重,算出所有权重后会进行softmax和加权,得到 【NLP】Attention原理和源码解析

可以看到Encoding和decoding阶段仍然是rnn,但是decoding阶使用attention的输出结果 【NLP】Attention原理和源码解析 作为rnn的输入。

那么重点来了, 权重 【NLP】Attention原理和源码解析 是怎么来的呢?常见有三种方法:

  • 【NLP】Attention原理和源码解析
  • 【NLP】Attention原理和源码解析
  • 【NLP】Attention原理和源码解析

思想就是根据当前解码“状态”判断输入序列的权重分布。

如果把attention剥离出来去看的话,其实是以下的机制:

【NLP】Attention原理和源码解析

输入是query(Q), key(K), value(V),输出是attention value。如果与之前的模型对应起来的话,query就是 【NLP】Attention原理和源码解析 ,key就是 【NLP】Attention原理和源码解析 ,value也是 【NLP】Attention原理和源码解析 。模型通过Q和K的匹配计算出权重,再结合V得到输出:

【NLP】Attention原理和源码解析

再深入理解下去,这种机制其实做的是寻址(addressing),也就是模仿中央处理器与存储交互的方式将存储的内容读出来,可以看一下李宏毅老师的课程。

3. 模型分类

3.1 Soft/Hard Attention

soft attention:传统attention,可被嵌入到模型中去进行训练并传播梯度

hard attention:不计算所有输出,依据概率对encoder的输出采样,在反向传播时需采用蒙特卡洛进行梯度估计

3.2 Global/Local Attention

global attention:传统attention,对所有encoder输出进行计算

local attention:介于soft和hard之间,会预测一个位置并选取一个窗口进行计算

3.3 Self Attention

传统attention是计算Q和K之间的依赖关系,而self attention则分别计算Q和K自身的依赖关系。具体的详解会在下篇文章给出~

4. 优缺点

优点:

  • 在输出序列与输入序列“顺序”不同的情况下表现较好,如翻译、阅读理解
  • 相比RNN可以编码更长的序列信息

缺点:

  • 对序列顺序不敏感
  • 通常和RNN结合使用,不能并行化

5. TF源码解析

发现已经有人解析得很明白了,即使TF代码有更新,原理应该还是差不多的,直接放上来吧:

顾秀森:Tensorflow源码解读(一):AttentionSeq2Seq模型 zhuanlan.zhihu.com 【NLP】Attention原理和源码解析

【参考资料】:

  1. 李宏毅老师的课程
  2. 知乎:目前主流的attention方法都有哪些?
  3. 模型汇总24 - 深度学习中Attention Mechanism详细介绍:原理、分类及应用

以上所述就是小编给大家介绍的《【NLP】Attention原理和源码解析》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

Measure What Matters

Measure What Matters

John Doerr / Portfolio / 2018-4-24 / GBP 19.67

In the fall of 1999, John Doerr met with the founders of a start-up he’d just given $11.8 million, the biggest investment of his career. Larry Page and Sergey Brin had amazing technology, entrepreneur......一起来看看 《Measure What Matters》 这本书的介绍吧!

RGB转16进制工具
RGB转16进制工具

RGB HEX 互转工具

图片转BASE64编码
图片转BASE64编码

在线图片转Base64编码工具

URL 编码/解码
URL 编码/解码

URL 编码/解码