内容简介:之前介绍过牛顿迭代法:当我们想要优化一个目标函数时,需要在每次迭代的时候对变量/参数进行更新,而更新参数的最重要的部分就是下面对最简单的神经网络进行BP算法的公式推导:下图是一个只有两个神经元的网络(图片修改自李弘毅老师的PPT),输入样本为一个二维的向量
之前介绍过牛顿迭代法:当我们想要优化一个目标函数时,需要在每次迭代的时候对变量/参数进行更新,而更新参数的最重要的部分就是 求目标函数对参数的导数 了。
下面对最简单的神经网络进行BP算法的公式推导:
下图是一个只有两个神经元的网络(图片修改自李弘毅老师的PPT),输入样本为一个二维的向量
,输出为一个数 ,现在假设loss函数是 ,那么要求的便是 以及 (把 和 合并成一个向量也是可以的)。
图中,
表示sigmiod函数。
首先思考一下,这个导数如果让你计算应该怎么做呢?
因为loss函数里与
, 参数相关的就只有 了,而 由 得出, 由线性函数得到…那自然会想到用chain rule来求导了。
整理一下思路:
那么求导如下:
这么求解貌似是可以的,however, 没有任何技巧可言,当网络结构有变化的时候,算法变的异常难写,比如:一层多个神经元的情况,两层之间非全连接的情况,某些神经元共享参数的情况等,想想都可怕,想要写个general的算法几乎不可能,另外还有计算量需要被考虑。
还好聪明人总是有的,考虑到
对 和对 求导过程其实是一样的,下面就仅介绍 对的BP求导过程。
对于上面的问题,先只看第一层神经元的参数更新(其实对于任意层任意神经元都有下式的关系):
接下来分别计算
和 :
正向计算
:
从式(3)可以看出正向计算有个非常好的性质,
就是神经元的值,这都已经在正向传播时计算过了!
反向计算
:
这其中,
很简单,sigmiod求导就ok了,而且,nice,又可以用现成的结果了。
而对于
的计算比较棘手了,因为:
其中
就是神经元间的连接权重参数,对于比较复杂的网络,计算 可以进行递归计算。如果被计算的是神经网络的最后一层(output layer),问题就变的简单了:
结束了,,
再看一下 反向计算
,然后按照同样的网络反方向计算一次,和正向传播的不同之处仅仅在于sigmoid(非线性转换/激活函数)变成先求导再相乘,结构清晰,计算量也大幅度下降。
最后总结一下: 正向传播
和 反向传播
相乘就可以计算出所有的参数更新梯度。
插句话:
神经网络中常用的优化算法是 随机梯度下降法
(SGD),实践中常用的是 adam
优化器(一种自适应步长/学习率的优化算法),理论上梯度下降做自适应步长也很简单,不过需要求Hessian矩阵,而对于上千万甚至上亿个参数的目标函数来说,计算量实在是太大了。
代码实现
这里对基础版的反向传播算法进行代码实现,代码来自 这里 ,你也可以点击 这里 进行查看。核心代码如下:
def feedforward(self, x): # 正向计算 # return the feedforward value for x a = np.copy(x) z_s = [] a_s = [a] for i in range(len(self.weights)): activation_function = self.getActivationFunction(self.activations[i]) z_s.append(self.weights[i].dot(a) + self.biases[i]) a = activation_function(z_s[-1]) a_s.append(a) return (z_s, a_s) def backpropagation(self,y, z_s, a_s): # 反向计算 dw = [] # dl/dW db = [] # dl/db deltas = [None] * len(self.weights) # delta = dl/dz known as error for each layer # insert the last layer error deltas[-1] = ((y-a_s[-1])*(self.getDerivitiveActivationFunction(self.activations[-1]))(z_s[-1])) # Perform BackPropagation for i in reversed(range(len(deltas)-1)): deltas[i] = self.weights[i+1].T.dot(deltas[i+1])*(self.getDerivitiveActivationFunction(self.activations[i])(z_s[i])) #a= [print(d.shape) for d in deltas] batch_size = y.shape[1] db = [d.dot(np.ones((batch_size,1)))/float(batch_size) for d in deltas] dw = [d.dot(a_s[i].T)/float(batch_size) for i,d in enumerate(deltas)] # return the derivitives respect to weight matrix and biases return dw, db
RNN怎么做BP
RNN的结构和 前馈神经网络
有所不同,反向传播和上述也略有不同,这里要介绍的算法叫做 Backpropagation Through Time (BPTT) 。这里假设读者对RNN、LSTM、GRU等算法已经有所了解了,就提纲挈领的介绍一下 BPTT
特别之处。
- 主要的不同点还是要看公式,RNN的在 时刻输出神经元的值可以用下式表示:式中 与上一时刻的计算结果相关
- 所以 的计算算是新内容,其他的和之前说的没有什么不一样
- 也可以认为就是结构上与前馈网络有所不同(如下图所示),对于每一个 都有一个loss,这里需要对每一个loss计算梯度,加起来就是整个需要更新的梯度了。
一个简单的many2many形式的RNN展开图,图片来自 这里 。
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:- 反向传播算法如何工作
- 机器学习分享——反向传播算法推导
- 如何基于时间的反向传播算法来训练LSTMs?
- 破解信息茧房,算法推荐需要引入“父爱式”传播
- 复数神经网络的反向传播算法及 PyTorch 实现方法
- 【火炉炼AI】机器学习026-股票数据聚类分析-近邻传播算法
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
并行计算导论
Ananth Grama、George Karypis、张武、毛国勇、Anshul Gupta、Vipin Kumar、程海英 / 张武、毛国勇、程海英 / 机械工业出版社 / 2005-1-1 / 49.00元
《并行计算导论》(原书第2版)全面介绍并行计算的各个方面,包括体系结构、编程范例、算法与应用和标准等,涉及并行计算的新技术,也覆盖了较传统的算法,如排序、搜索、图和动态编程等。《并行计算导论》(原书第2版)尽可能采用与底层平台无关的体系结构并且针对抽象模型来设计处落地。书中选择MPI、POSIX线程和OpenMP作为编程模型,并在不同例子中反映了并行计算的不断变化的应用组合。一起来看看 《并行计算导论》 这本书的介绍吧!