论文笔记：LSTM: A Search Space Odyssey

栏目: 数据库 · 发布时间: 6年前

作者

Klaus Greff
Rupesh Kumar Srivastava
Jan Koutnik
Bas R. Steunebrink
Jurgen Schmidhuber

观点

LSTM 结构的核心思想是其能维护历史状态的记忆单元，以及能调节信息出入的非线性门控单元(gating unit)
自 LSTM 提出后，陆续有多种对 LSTM 结构的改进工作，并广泛应用到了许多规模、性质迥异的问题上，但却缺乏对 LSTM 及其变体中各个计算部件的系统性分析

数据集

模型/实验/结论

模型，LSTM 即八种待对比的 LSTM 变体

V: vanilla LSTM，即经典的 LSTM 模型
NIG: 在 LSTM 基础上去除 input gate 得到的结构
NFG: 在 LSTM 基础上去除 forget gate 得到的结构
NOG: 在 LSTM 基础上去除 output gate 得到的结构
NIAF: 在 LSTM 基础上去除 input activation function 得到的结构
NOAF: 在 LSTM 基础上去除 output activation function 得到的结构
NP: 在 LSTM 基础上去除 peephole 得到的结构
CIFG: 既 GRU
FGR: 在 LSTM 基础上让门控单元互相之间都有连接(full gate recurrence)

实验

在 TIMIT 数据集和 IAM 在线手写数据库上使用双向 LSTM，在 JSB Chorales 数据集上使用 LSTM
在 TIMIT 数据集和 JSB Chorales 上使用交叉熵作为损失函数，在 TIMIT 数据集上则使用 CTC
对总共 27 个模型各进行 200 次对数尺度上的超参搜索，然后进行训练，共进行 5400 次实验
每个数据集上的每个变体的 200 次实验中，最好的 20 个实验结果被拿来和 vanilla LSTM 模型的结果对比

结论

在三个数据集上，移除 forget gate 或 output activation function 都严重损害了模型性能，forget gate 对 LSTM 来说至关重要
对连续实数数据上的监督学习问题，input gate、output gate 和 input activation function 的存在非常重要
GRU 和移除 peephole 的变体相比 vanilla LSTM 没有显著的性能差异，但它们都在一定程度上简化了 LSTM 结构
full gate recurrence 结构没有改善 LSTM 的性能，相反还在 JSB Chorales 数据集上让结果变差了不少，加上它让 LSTM 更复杂了，不建议使用
动量项对性能和训练速度都没有提高作用
梯度裁剪会损害整体性能
在使用 SGD 进行训练时，动量项对训练没什么显著好处；但在用 BSGD 进行训练时可能会起到一定的作用
学习率和网络大小是 LSTM 中非常重要的两个超参

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

Deep Learning

Ian Goodfellow、Yoshua Bengio、Aaron Courville / The MIT Press / 2016-11-11 / USD 72.00

"Written by three experts in the field, Deep Learning is the only comprehensive book on the subject." -- Elon Musk, co-chair of OpenAI; co-founder and CEO of Tesla and SpaceX Deep learning is a for......一起来看看《Deep Learning》这本书的介绍吧!

码农工具

随机密码生成器

多种字符组合密码

RGB HSV 转换

RGB HSV 互转工具

HEX HSV 转换工具

HEX HSV 互换工具