论文笔记:LSTM: A Search Space Odyssey

栏目: 数据库 · 发布时间: 6年前

作者

  • Klaus Greff
  • Rupesh Kumar Srivastava
  • Jan Koutnik
  • Bas R. Steunebrink
  • Jurgen Schmidhuber

观点

  • LSTM 结构的核心思想是其能维护历史状态的记忆单元,以及能调节信息出入的非线性门控单元(gating unit)
  • 自 LSTM 提出后,陆续有多种对 LSTM 结构的改进工作,并广泛应用到了许多规模、性质迥异的问题上,但却缺乏对 LSTM 及其变体中各个计算部件的系统性分析

模型/实验/结论

模型,LSTM 即八种待对比的 LSTM 变体

  • V: vanilla LSTM,即经典的 LSTM 模型
  • NIG: 在 LSTM 基础上去除 input gate 得到的结构
  • NFG: 在 LSTM 基础上去除 forget gate 得到的结构
  • NOG: 在 LSTM 基础上去除 output gate 得到的结构
  • NIAF: 在 LSTM 基础上去除 input activation function 得到的结构
  • NOAF: 在 LSTM 基础上去除 output activation function 得到的结构
  • NP: 在 LSTM 基础上去除 peephole 得到的结构
  • CIFG: 既 GRU
  • FGR: 在 LSTM 基础上让门控单元互相之间都有连接(full gate recurrence)

实验

  • 在 TIMIT 数据集和 IAM 在线手写数据库上使用双向 LSTM,在 JSB Chorales 数据集上使用 LSTM
  • 在 TIMIT 数据集和 JSB Chorales 上使用交叉熵作为损失函数,在 TIMIT 数据集上则使用 CTC
  • 对总共 27 个模型各进行 200 次对数尺度上的超参搜索,然后进行训练,共进行 5400 次实验
  • 每个数据集上的每个变体的 200 次实验中,最好的 20 个实验结果被拿来和 vanilla LSTM 模型的结果对比

结论

  • 在三个数据集上,移除 forget gate 或 output activation function 都严重损害了模型性能,forget gate 对 LSTM 来说至关重要
  • 对连续实数数据上的监督学习问题,input gate、output gate 和 input activation function 的存在非常重要
  • GRU 和 移除 peephole 的变体相比 vanilla LSTM 没有显著的性能差异,但它们都在一定程度上简化了 LSTM 结构
  • full gate recurrence 结构没有改善 LSTM 的性能,相反还在 JSB Chorales 数据集上让结果变差了不少,加上它让 LSTM 更复杂了,不建议使用
  • 动量项对性能和训练速度都没有提高作用
  • 梯度裁剪会损害整体性能
  • 在使用 SGD 进行训练时,动量项对训练没什么显著好处;但在用 BSGD 进行训练时可能会起到一定的作用
  • 学习率和网络大小是 LSTM 中非常重要的两个超参

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

疯狂的站长

疯狂的站长

温世豪 / 清华大学出版社 / 2010年05月 / 29.00元

受全球性金融危机的影响,就业变得越来越困难,众多青年,包括大学毕业生,无不感到就业的巨大压力,站长这一职业不但创业门槛低,而且还自由自在。其实,搭建一个网站是相当简单的,但要成为一名成功的站长则不那么容易。 本书作者是一名站长,从事互联网相关工作已十余年,自已也在经营一个知名网站,积累了大量网站运营经验。作者结合自身真实的“疯狂”创业经历,以平实、通俗的语言讲述如何从零开始起步,最终成为一名......一起来看看 《疯狂的站长》 这本书的介绍吧!

Base64 编码/解码
Base64 编码/解码

Base64 编码/解码

HSV CMYK 转换工具
HSV CMYK 转换工具

HSV CMYK互换工具