ICLR 2017 大会：百度探索循环神经网络中的稀疏性

栏目: 数据库 · 发布时间: 7年前

内容简介：ICLR 2017 大会：百度探索循环神经网络中的稀疏性

循环神经网络（RNN）通过带负反馈的神经元，能够处理任意长度的序列，被普遍的应用于解决各种问题。随着现在数据量和可计算能力的增加，神经网络的规模在不断扩大。但目前在手机或嵌入式设备的网络中，RNN 参数数量过多, 难以部署，较大的内存需求和评估时长都是 RNN 面临的挑战。

在 4 月份闭幕的 ICLR 会议上，百度展示了一篇名为《EXPLORING SPARSITY IN RECURRENT NEURAL NETWORKS》的论文。为了有效创建循环神经网络，科学家们提出一种在网络初始训练期间降低权重的方法来减少网络中的参数。

循环神经网络是动物大脑中神经元网络及其动作电位的算法简化，它通常包含三个部分：“输入层”、“隐藏层”和“输出层”，就相当于动物神经元网络中的突触和神经元。每一个神经元对应一个节点，突触就是 RNN 的边缘，在整个神经元网络中，刺激神经元电位发生变化的信号通过突触从上游神经元传递到下游神经元，以离散的方式迭代。每一个节点的参数都是由当前迭代结果以及之前所有迭代结果共同决定的。

ICLR 2017 大会：百度探索循环神经网络中的稀疏性

用于声音建模的深层神经网络具有大约 1100 万个参数，当使用双向循环网络建模时参数将扩大到 6700 万个，甚至在语言建模中，这些参数的数量更大。

通常情况下， 这个参数的大小由隐藏层的权重决定 。如下图所示，x 表示输入层的值，s 表示隐藏层的值，o 代表输出层，而 W 就代表隐藏层的权重矩阵。如果建模任务很复杂，W 的值就会很大。现代便携式设备的内存和存储空间有限，无法满足循环网络的计算需求，而大型设备往往又需要很长的评估时间。

ICLR 2017 大会：百度探索循环神经网络中的稀疏性

因此，不得不采取措施降低权重。百度的办法是，在建模初始化期间，为网络中的每个权重创建一个二进制掩码，在训练的迭代过程中采用单调递增的阈值，将小于阈值的权重设置为零，并更新掩码。在所有的权重更新完毕之后，将掩码与权重相乘。这样一来就可以人为控制权重矩阵的稀疏度，同时，为了保证权重小的参数不变，每一层还设置了不同的阈值函数。目前，通过这种方法科学家们可以以最小的精度损失实现 90%的稀疏度，并将运算速度提高 2-7 倍。

ICLR 2017 大会：百度探索循环神经网络中的稀疏性