论文笔记:LSTM: A Search Space Odyssey

栏目: 数据库 · 发布时间: 5年前

作者

  • Klaus Greff
  • Rupesh Kumar Srivastava
  • Jan Koutnik
  • Bas R. Steunebrink
  • Jurgen Schmidhuber

观点

  • LSTM 结构的核心思想是其能维护历史状态的记忆单元,以及能调节信息出入的非线性门控单元(gating unit)
  • 自 LSTM 提出后,陆续有多种对 LSTM 结构的改进工作,并广泛应用到了许多规模、性质迥异的问题上,但却缺乏对 LSTM 及其变体中各个计算部件的系统性分析

模型/实验/结论

模型,LSTM 即八种待对比的 LSTM 变体

  • V: vanilla LSTM,即经典的 LSTM 模型
  • NIG: 在 LSTM 基础上去除 input gate 得到的结构
  • NFG: 在 LSTM 基础上去除 forget gate 得到的结构
  • NOG: 在 LSTM 基础上去除 output gate 得到的结构
  • NIAF: 在 LSTM 基础上去除 input activation function 得到的结构
  • NOAF: 在 LSTM 基础上去除 output activation function 得到的结构
  • NP: 在 LSTM 基础上去除 peephole 得到的结构
  • CIFG: 既 GRU
  • FGR: 在 LSTM 基础上让门控单元互相之间都有连接(full gate recurrence)

实验

  • 在 TIMIT 数据集和 IAM 在线手写数据库上使用双向 LSTM,在 JSB Chorales 数据集上使用 LSTM
  • 在 TIMIT 数据集和 JSB Chorales 上使用交叉熵作为损失函数,在 TIMIT 数据集上则使用 CTC
  • 对总共 27 个模型各进行 200 次对数尺度上的超参搜索,然后进行训练,共进行 5400 次实验
  • 每个数据集上的每个变体的 200 次实验中,最好的 20 个实验结果被拿来和 vanilla LSTM 模型的结果对比

结论

  • 在三个数据集上,移除 forget gate 或 output activation function 都严重损害了模型性能,forget gate 对 LSTM 来说至关重要
  • 对连续实数数据上的监督学习问题,input gate、output gate 和 input activation function 的存在非常重要
  • GRU 和 移除 peephole 的变体相比 vanilla LSTM 没有显著的性能差异,但它们都在一定程度上简化了 LSTM 结构
  • full gate recurrence 结构没有改善 LSTM 的性能,相反还在 JSB Chorales 数据集上让结果变差了不少,加上它让 LSTM 更复杂了,不建议使用
  • 动量项对性能和训练速度都没有提高作用
  • 梯度裁剪会损害整体性能
  • 在使用 SGD 进行训练时,动量项对训练没什么显著好处;但在用 BSGD 进行训练时可能会起到一定的作用
  • 学习率和网络大小是 LSTM 中非常重要的两个超参

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

界面设计模式

界面设计模式

Jenifer Tidwell / 东南大学,O‘Reilly / 2011-5 / 99.00元

尽管目前已经存在了各种各样的用户界面设计工具,设计良好的应用界面仍然不是一件容易的事情。这本畅销书是极少数可以信赖的资料,它能帮助你走出设计选项的迷宫。通过把捕捉到的最佳实践和重用思想体现为设计模式,《界面设计模式》提供了针对常见设计问题的解决方案,这些方案可以被裁减以适用于你的具体情况。本修订版包括了手机应用和社交媒体的模式,以及web应用和桌面软件。每个模式包含了用全彩方式展现的运用技巧,以及......一起来看看 《界面设计模式》 这本书的介绍吧!

随机密码生成器
随机密码生成器

多种字符组合密码

URL 编码/解码
URL 编码/解码

URL 编码/解码

HSV CMYK 转换工具
HSV CMYK 转换工具

HSV CMYK互换工具