DL杂记:再议长短时记忆网络(Long Short Term Memory Network, LSTM)

栏目: 数据库 · 发布时间: 6年前

对rnn的一些模型结构可以查看这篇文章: RNN:几张图搞懂RNN模型构建

下面来 着重看一些lstm:

LSTM:是一种改进之后的循环网络,可以解决rnn无法处理长距离依赖的问题。

首先看一下原始rnn: 其实rnn可以看成是一个很深的network。 如下图所示的形式。

DL杂记:再议长短时记忆网络(Long Short Term Memory Network, LSTM)

但是原始rnn存在梯度消失 或者 梯度爆炸的情况, 梯度消失可以通过累积来体现(激活函数等)、梯度爆炸可以通过累加再体现(累加值太大),那么有什么解决方法呢?

(1)clipped gradient: 将梯度约束到一点的范围内: [min, max],即梯度小于min时取min、当梯度大于max时取max。 (这点有没有想起GAN的....)

(2)优化算法使用:momentum、NAG、RMSProp。

(3)改变rnn的结构: LSTM(主要解决梯度消失的问题)。

LSTM的结构如下图所示:

DL杂记:再议长短时记忆网络(Long Short Term Memory Network, LSTM)

主要包含三个门:

(1)遗忘门(如下图所示): 它决定了上一时刻的单元状态 c_t-1 有多少保留到当前时刻 c_t。 (有没有发现有点attention的意思,有没有看出点残差的额意思)

DL杂记:再议长短时记忆网络(Long Short Term Memory Network, LSTM)

(2)输入门(如下图所示): 它决定了当前时刻网络的输入 x_t 有多少保存到单元状态 c_t。

DL杂记:再议长短时记忆网络(Long Short Term Memory Network, LSTM)

(3)输出门: 控制单元状态 c_t 有多少输出到 LSTM 的当前输出值 h_t。

DL杂记:再议长短时记忆网络(Long Short Term Memory Network, LSTM)

最终lstm后向传播是为了学习8组参数,如下图:

DL杂记:再议长短时记忆网络(Long Short Term Memory Network, LSTM)


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

设计模式

设计模式

[美] Erich Gamma、Richard Helm、Ralph Johnson、John Vlissides / 李英军、马晓星、蔡敏、刘建中 等 / 机械工业出版社 / 2000-9 / 35.00元

这本书结合设计实作例从面向对象的设计中精选出23个设计模式,总结了面向对象设计中最有价值的经验,并且用简洁可复用的形式表达出来。书中分类描述了一组设计良好、表达清楚的软件设计模式,这些模式在实用环境下特别有用。此书适合大学计算机专业的学生、研究生及相关人员参考。 书中涉及的设计模式并不描述新的或未经证实的设计,只收录了那些在不同系统中多次使用过的成功设计。一起来看看 《设计模式》 这本书的介绍吧!

XML 在线格式化
XML 在线格式化

在线 XML 格式化压缩工具

RGB HSV 转换
RGB HSV 转换

RGB HSV 互转工具