李宏毅:1 天搞懂深度学习,我总结了 300 页 PPT(附思维导图)

栏目: 数据库 · 发布时间: 5年前

内容简介:作者:慢慢的燃烧https://blog.csdn.net/u010164190/article/details/72633245

李宏毅:1 天搞懂深度学习,我总结了 300 页 PPT(附思维导图)

作者:慢慢的燃烧

https://blog.csdn.net/u010164190/article/details/72633245

《1 天搞懂深度学习》,300 多页的 ppt,台湾李宏毅教授写的,非常棒。不夸张地说,是我看过最系统,也最通俗易懂的,关于深度学习的文章。

这份 300 页的 PPT,被搬运到了 SlideShare 上,下面是 SlideShare 的链接:

https://www.slideshare.net/tw_dsconf/ss-62245351?qid=108adce3-2c3d-4758-a830-95d0a57e46bc&v=&b=&from_search=3

李宏毅:1 天搞懂深度学习,我总结了 300 页 PPT(附思维导图)

废话少说,先上干货,整个 PPT 的思维导图如下:

李宏毅:1 天搞懂深度学习,我总结了 300 页 PPT(附思维导图)

一、深度学习概论

1. 介绍深度学习

作者非常浅显的指出机器(深度)学习过程非常简单,分为定义方法、判断方法的优劣、挑选出最佳的方法。

李宏毅:1 天搞懂深度学习,我总结了 300 页 PPT(附思维导图)

对于深度学习,首先第一步定义方法 - 神经网络。深度学习顾名思义是指多层的神经网络。 

神经网络的思想来源于对于人脑的生理上的研究,人脑由数亿个神经元组成,神经元通过轴突互相连接通信。神经网络和人脑类似,存在多个层级(layer),每个层级都有多个节点(神经元),层级和层级之间相互连接(轴突),最终输出结果。 

对于神经网络的计算能力可以理解为通过一层层Layer的计算归纳,逐步的将抽象的原始数据变的具体。以图片识别为例,输入是一个个像素点,经过每层神经网络,逐步变化成为线、面、对象的概念,然后机器有能力能够识别出来。

李宏毅:1 天搞懂深度学习,我总结了 300 页 PPT(附思维导图)

第二步,评估方法的优劣。 

Loss function是用于评估方法优劣,通常我们用学习出来的参数对测试数据进行计算,得出对应的预测(y)然后和真实的测试数据的目标值(t)进行比对,y和t之间的差距往往就是Loss。那么评估一个算法的好坏,就是要尽可能的降低Loss。

李宏毅:1 天搞懂深度学习,我总结了 300 页 PPT(附思维导图)

第三步,如何获得最佳的学习方法。

获得最佳的学习是采用梯度下降算法,作者也提到梯度下降算法存在局部最优解的问题。人们往往认为机器无所不能,实际上更像是在一个地图上面拓荒,对周边一无所知。神经网络计算梯度的算法是反向传播算法,简称BP。

李宏毅:1 天搞懂深度学习,我总结了 300 页 PPT(附思维导图)

2. 为什么要足够“深”?

作者首先指出越多的参数往往带来越好的预测能力,所以神经网络往往参数越多越好。那么如果是同样的参数情况下,为什么层级较多的表现会更好呢?

李宏毅:1 天搞懂深度学习,我总结了 300 页 PPT(附思维导图)

作者认为深度网络可以带来模块化的好处,随着网络的层级,神经网络会将像素元素逐渐归纳出一些基本的特征,进而变成纹理,进而变成对象。

李宏毅:1 天搞懂深度学习,我总结了 300 页 PPT(附思维导图)

二、训练方法

李宏毅:1 天搞懂深度学习,我总结了 300 页 PPT(附思维导图)

作者总结下来训练过程中会发现了两种情况: 

  • 没有办法得到很好的训练结果 —> 重新选择训练方式

  • 没有办法得到很好的测试结果 —> 往往由于过度拟合导致,需要重新定义方法

李宏毅:1 天搞懂深度学习,我总结了 300 页 PPT(附思维导图)

优化训练方法的手段: 

  • 选择合适的Loss function:使用Cross Entropy效果要优于Mean Square Error

  • Mini-batch: 每次训练使用少量数据而不是全量数据效率更高

  • Activation Function:使用ReLU替代Sigmoid可以解决梯度消失的问题,可以训练更深的神经网络

  • Adaptive Learning Rate:可以随着迭代不断自我调整,提高学习效率

  • Momentum: 可以一定程度上避免陷入局部最低点的问题

李宏毅:1 天搞懂深度学习,我总结了 300 页 PPT(附思维导图)

避免过度拟合(overfitting)的方法: 

  • Early Stopping:使用cross validation的方式,不断对validation data进行检验,一旦发现预测精度下降则停止。

  • Weight Decay:参数正则化的一种方式?

  • Dropout:通过随机去掉一些节点的连接达到改变网络形式,所以会产生出多种网络形态,然后汇集得到一个最佳结果

  • Network Structure: 例如CNN等其他形态的网络

三、神经网络变体

1. 卷积神经网络(CNN)

李宏毅:1 天搞懂深度学习,我总结了 300 页 PPT(附思维导图)

通常情况下,一个CNN包含多次的卷积、池化,然后Flatten,最终再通过一个深度神经网络进行学习预测。CNN在图像、语音识别取得非常好的成绩,核心的想法在于一些物体的特征往往可以提取出来,并且可能出现在图片的任何位置,而且通过卷积、池化可以大大减少输入数据,加快训练效率。

2. 循环神经网络(RNN)

李宏毅:1 天搞懂深度学习,我总结了 300 页 PPT(附思维导图)

RNN的想法是可以将hidden layer的数据存储下来,然后作为输入给下一个网络学习。这种网络的想法可以解决自然语言中前后词语是存在关联性的,所以RNN可以把这些关联性放到网络中进行学习。

四、其它前沿技术

Ultra Deep Network:

2015年出现了152层的Residual Net实现了图片3.57%错误率。

李宏毅:1 天搞懂深度学习,我总结了 300 页 PPT(附思维导图)

Reinforcement Learning: 

通过奖励机制强化学习,并且做出相应的动作。

李宏毅:1 天搞懂深度学习,我总结了 300 页 PPT(附思维导图)

Unsupervised Learning:

1. Deep Style

李宏毅:1 天搞懂深度学习,我总结了 300 页 PPT(附思维导图)

2. 生成图片

李宏毅:1 天搞懂深度学习,我总结了 300 页 PPT(附思维导图)

3. 无需人工介入理解文字的含义

李宏毅:1 天搞懂深度学习,我总结了 300 页 PPT(附思维导图)

李宏毅《1 天搞懂深度学习》教程的 300 页 PPT 已打包完毕,公众号后台回复 300ML 即可获取链接。

专注于数据科学领域的知识分享

欢迎在文章下方留言与交流


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

Beginning ASP.NET 4 in C# and Vb

Beginning ASP.NET 4 in C# and Vb

Imar Spaanjaars / Wrox / 2010-3-19 / GBP 29.99

This book is for anyone who wants to learn how to build rich and interactive web sites that run on the Microsoft platform. With the knowledge you gain from this book, you create a great foundation to ......一起来看看 《Beginning ASP.NET 4 in C# and Vb》 这本书的介绍吧!

JS 压缩/解压工具
JS 压缩/解压工具

在线压缩/解压 JS 代码

MD5 加密
MD5 加密

MD5 加密工具

XML 在线格式化
XML 在线格式化

在线 XML 格式化压缩工具