DL杂记:再议长短时记忆网络(Long Short Term Memory Network, LSTM)

栏目: 数据库 · 发布时间: 7年前

对rnn的一些模型结构可以查看这篇文章: RNN:几张图搞懂RNN模型构建

下面来 着重看一些lstm:

LSTM:是一种改进之后的循环网络,可以解决rnn无法处理长距离依赖的问题。

首先看一下原始rnn: 其实rnn可以看成是一个很深的network。 如下图所示的形式。

DL杂记:再议长短时记忆网络(Long Short Term Memory Network, LSTM)

但是原始rnn存在梯度消失 或者 梯度爆炸的情况, 梯度消失可以通过累积来体现(激活函数等)、梯度爆炸可以通过累加再体现(累加值太大),那么有什么解决方法呢?

(1)clipped gradient: 将梯度约束到一点的范围内: [min, max],即梯度小于min时取min、当梯度大于max时取max。 (这点有没有想起GAN的....)

(2)优化算法使用:momentum、NAG、RMSProp。

(3)改变rnn的结构: LSTM(主要解决梯度消失的问题)。

LSTM的结构如下图所示:

DL杂记:再议长短时记忆网络(Long Short Term Memory Network, LSTM)

主要包含三个门:

(1)遗忘门(如下图所示): 它决定了上一时刻的单元状态 c_t-1 有多少保留到当前时刻 c_t。 (有没有发现有点attention的意思,有没有看出点残差的额意思)

DL杂记:再议长短时记忆网络(Long Short Term Memory Network, LSTM)

(2)输入门(如下图所示): 它决定了当前时刻网络的输入 x_t 有多少保存到单元状态 c_t。

DL杂记:再议长短时记忆网络(Long Short Term Memory Network, LSTM)

(3)输出门: 控制单元状态 c_t 有多少输出到 LSTM 的当前输出值 h_t。

DL杂记:再议长短时记忆网络(Long Short Term Memory Network, LSTM)

最终lstm后向传播是为了学习8组参数,如下图:

DL杂记:再议长短时记忆网络(Long Short Term Memory Network, LSTM)


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

趣学算法

趣学算法

陈小玉 / 人民邮电出版社 / 2017-7-1 / 89.00元

本书内容按照算法策略分为7章。 第1章从算法之美、简单小问题、趣味故事引入算法概念、时间复杂度、空间复杂度的概念和计算方法,以及算法设计的爆炸性增量问题,使读者体验算法的奥妙。 第2~7章介绍经典算法的设计策略、实战演练、算法分析及优化拓展,分别讲解贪心算法、分治算法、动态规划、回溯法、分支限界法、线性规划和网络流。每一种算法都有4~10个实例,共50个大型实例,包括经典的构造实例和实......一起来看看 《趣学算法》 这本书的介绍吧!

HTML 压缩/解压工具
HTML 压缩/解压工具

在线压缩/解压 HTML 代码

XML 在线格式化
XML 在线格式化

在线 XML 格式化压缩工具

RGB CMYK 转换工具
RGB CMYK 转换工具

RGB CMYK 互转工具