DL杂记:再议长短时记忆网络(Long Short Term Memory Network, LSTM)

栏目: 数据库 · 发布时间: 7年前

对rnn的一些模型结构可以查看这篇文章: RNN:几张图搞懂RNN模型构建

下面来 着重看一些lstm:

LSTM:是一种改进之后的循环网络,可以解决rnn无法处理长距离依赖的问题。

首先看一下原始rnn: 其实rnn可以看成是一个很深的network。 如下图所示的形式。

DL杂记:再议长短时记忆网络(Long Short Term Memory Network, LSTM)

但是原始rnn存在梯度消失 或者 梯度爆炸的情况, 梯度消失可以通过累积来体现(激活函数等)、梯度爆炸可以通过累加再体现(累加值太大),那么有什么解决方法呢?

(1)clipped gradient: 将梯度约束到一点的范围内: [min, max],即梯度小于min时取min、当梯度大于max时取max。 (这点有没有想起GAN的....)

(2)优化算法使用:momentum、NAG、RMSProp。

(3)改变rnn的结构: LSTM(主要解决梯度消失的问题)。

LSTM的结构如下图所示:

DL杂记:再议长短时记忆网络(Long Short Term Memory Network, LSTM)

主要包含三个门:

(1)遗忘门(如下图所示): 它决定了上一时刻的单元状态 c_t-1 有多少保留到当前时刻 c_t。 (有没有发现有点attention的意思,有没有看出点残差的额意思)

DL杂记:再议长短时记忆网络(Long Short Term Memory Network, LSTM)

(2)输入门(如下图所示): 它决定了当前时刻网络的输入 x_t 有多少保存到单元状态 c_t。

DL杂记:再议长短时记忆网络(Long Short Term Memory Network, LSTM)

(3)输出门: 控制单元状态 c_t 有多少输出到 LSTM 的当前输出值 h_t。

DL杂记:再议长短时记忆网络(Long Short Term Memory Network, LSTM)

最终lstm后向传播是为了学习8组参数,如下图:

DL杂记:再议长短时记忆网络(Long Short Term Memory Network, LSTM)


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

MATLAB高效编程技巧与应用

MATLAB高效编程技巧与应用

吴鹏 / 北京航空航天大学 / 2010-6 / 39.00元

《MATLAB高效编程技巧与应用:25个案例分析》是作者八年MATLAB使用经验的总结,精心设计的所有案例均来自于国内各大MATLAB技术论坛网友的切身需求,其中不少案例涉及的内容和求解方法在国内现已出版的MATLAB书籍中鲜有介绍。 《MATLAB高效编程技巧与应用:25个案例分析》首先针对MATLAB新版本特有的一些编程思想、高效的编程方法、新技术进行了较为详细的讨论,在此基础上,以大量......一起来看看 《MATLAB高效编程技巧与应用》 这本书的介绍吧!

HTML 压缩/解压工具
HTML 压缩/解压工具

在线压缩/解压 HTML 代码

JSON 在线解析
JSON 在线解析

在线 JSON 格式化工具

Markdown 在线编辑器
Markdown 在线编辑器

Markdown 在线编辑器