RNN-based is not always easy to learn

栏目: IT技术 · 发布时间: 4年前

内容简介：一般而言，你在做training的时候，你会希望，你的learning curve是像蓝色这条线，纵轴是total loss，横轴是epoch的数目，你会希望：随着epoch的增加，参数的不断update，loss会慢慢下降最后趋于收敛。但不幸的是，在训练RNN的时候，有时会看到这条绿色的线我们分析下RNN的性质，看看RNN的error surface的变化

RNN-based is always not easy to learn

一般而言，你在做training的时候，你会希望，你的learning curve是像蓝色这条线，纵轴是total loss，横轴是epoch的数目，你会希望：随着epoch的增加，参数的不断update，loss会慢慢下降最后趋于收敛。但不幸的是，在训练RNN的时候，有时会看到这条绿色的线

我们分析下RNN的性质，看看RNN的error surface的变化

RNN-based is not always easy to learn

假设你从橙色的点当作初始点（$w_1=-2.2,w_2=4.6$），利用Gradient Descent更新参数，有一种情况是你一脚蹬上了悬崖，loss暴涨。另一种更惨的情况是你一脚踩到了悬崖边上（从右往左数第三个橙色的点），此时当前这个点的Gradient很大，导致整个参数飞出去了

解决办法相当粗暴，clipping。具体来说就是当Gradient大于某个设定的阈时，让Gradient直接等于这个阈值，所以就算踩在这个悬崖边上，也不会飞出去，而是飞到一个比较近的地方，这样你还可以继续做RNN的training

思考：为什么RNN会有这种奇怪的特性？有人认为，是不是因为activation function用的是sigmoid从而导致了Gradient Vanish，其实并不是，如果真是这个问题，你换成ReLU去解决是不是就行了？并不，使用ReLU会导致RNN performance更差，所以activation function其实并不是关键点

RNN-based is not always easy to learn

举个很简单的例子，只有一个neuron，这个neuron是Linear的。input没有bias，weight是1。output的weight也是1，transition的weight是$w$，也就是说memory接到neuron的input weight是$w$

现在假设input是[1,0,0,0,...,0]，那这个neural network在最后一个时间点（1000）的output值就是$w^{999}$。假设$w$是我们要learn的参数，我们想知道它的Gradient，所以我们观察一下当$w$改变的而时候，对neural的output有多大的影响。假设$w=1$，那么$y^{1000}=1$；假设$w=1.01$，那么$y^{1000}\approx 20000$，这就跟蝴蝶效应一样，$w$有一点小小的变化，就会对output产生非常大的影响，但是我们可以通过把learning rate设小一点。但如果假设$w=0.99$，那么$y^{1000}\approx 0$，也就是说这时候需要一个很大的learning rate。所以，一会儿你又要很小的learning rate，一会儿又要很大的learning rate，这就很麻烦了。RNN training的问题其实来自于它把同样的东西在transition的时候反复使用，所以这个$w$只要一有变化，造成的影响都是天崩地裂级别的

以上所述就是小编给大家介绍的《RNN-based is not always easy to learn》，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对码农网的支持！

查看所有标签

猜你喜欢:

RNN-based is not always easy to learn

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

编译器设计

Keith Cooper、Linda Torczon / 郭旭 / 人民邮电出版社 / 2012-12 / 99.00元

深入剖析现代编译器运用的算法和技术强调代码优化和代码生成体现编译原理教学的最新理念本书旨在介绍编译器构造法中的艺术和科学。书中深入分析现代编译器后端所用的算法和技术，重点讨论代码优化和代码生成，详细介绍了用几个编程语言编写的示例等。 Keith D. Cooper　莱斯大学计算机科学系计算工程专业Doerr特聘教授，曾任该系系主任。Cooper博士的研究课题涵盖过程间......一起来看看《编译器设计》这本书的介绍吧!

码农工具

RNN-based is not always easy to learn

RNN-based is always not easy to learn

编译器设计

MD5 加密

html转js在线工具

UNIX 时间戳转换