内容简介:卷积神经网络(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网络由一个或多个卷积层和顶端的全连通层(对应经典的神经网络)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网络能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网络在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网络,卷
卷积神经网络(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。
卷积神经网络由一个或多个卷积层和顶端的全连通层(对应经典的神经网络)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网络能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网络在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网络,卷积神经网络需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。
本文主要介绍了一些CNN的历史进展。
1962年 Hubel和Wiesel
卷积神经网络的发展,最早可以追溯到 1962年 , Hubel和Wiesel 对猫大脑中的视觉系统的研究。
Hubel和Wiesel(图片来源:harvard brain tour)
20世纪60年代初,David Hubel和Torsten Wiesel从约翰霍普金斯大学和Steven Kuffler一起来到哈佛大学,在哈佛医学院建立了神经生物学系。他们们在论文《Receptive fields, binocular interaction and functional architecture in the cat's visual cortex》中提出了Receptive fields的概念,因其在视觉系统中信息处理方面的杰出贡献,他们在1981年获得了诺贝尔生理学或医学奖。
Hubel和Wiesel记录了猫脑中各个神经元的电活动。他们使用幻灯机向猫展示特定的模式,并指出特定的模式刺激了大脑特定部位的活动。这种单神经元记录是当时的一项创新,由Hubel早期发明的特殊记录电极实现,他们通过这些实验系统地创建了视觉皮层的地图。
论文地址: https://www.aminer.cn/archive/receptive-fields-binocular-interaction-and-functional-architecture-in-the-cat-s-visual-cortex/55a5761e612c6b12ab1cc946
1980年 福岛邦彦
1980年,日本科学家福岛邦彦在论文《Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position》提出了一个包含卷积层、池化层的神经网络结构。
老人家现在已经退休了,被誉为“八十多岁仍在奋斗的全球人工智能专家”。除了后来发展出卷积神经网络的Neurocognition(认知控制),现在深度学习中开始热闹起来的Attention(注意力)网络背后也有他的身影,他也在上世纪80年就提出过Attention概念和网络。
1998年 Yann Lecun
1998年,在这个基础上,Yann Lecun在论文《Gradient-Based Learning Applied to Document Recognition》中提出了LeNet-5, 将BP算法应用到这个神经网络结构的训练上, 就形成了当代卷积神经网络的雏形。
(图片来源:Forbes)
原始的CNN效果并不算好,而且训练也非常困难。虽然也在阅读支票、识别数字之类的任务上很有效果,但由于在一般的实际任务中表现不如SVM、Boosting等算法好,一直处于学术界边缘的地位。
论文地址: https://www.aminer.cn/archive/gradient-based-learning-applied-to-document-recognition/53e9b85bb7602d970441f6c2
2012年 Hinton组
直到2012年,Imagenet图像识别大赛中,Hinton组的论文《ImageNet Classification with Deep Convolutional Neural Networks》中提到的 Alexnet引入了全新的深层结构和dropout方法,一下子把error rate从25%以上提升到了15%,颠覆了图像识别领域。
Alexnet有很多创新点,但现在看来是一项非常简陋的工作。他主要是让人们意识到原来那个福岛邦彦提出,Yann Lecun优化的Lenet结构是有很大改进空间的;只要通过一些方法能够加深这个网络到8层左右,让网络表达能力提升,就能得到出人意料的好结果。
论文地址: https://www.aminer.cn/archive/imagenet-classification-with-deep-convolutional-neural-networks/53e9a281b7602d9702b88a98
顺着Alexnet的思想,Lecun组2013年提出一个Dropconnect,把error rate提升到了11%。而NUS的颜水成组则提出了Network in Network,NIN的思想是CNN原来的结构是完全可变的,然后加入了一个1*1conv层,NIN的应用也得到了2014年Imagine另一个挑战——图像检测的冠军。Network in Network的思想是CNN结构可以大胆去变化,由此,Inception和VGG在2014年把网络加深到了20层左右,图像识别的error rate也大幅提升到6.7%,接近人类的5.1%。
2015年,MSRA的任少卿、何凯明、孙剑等人,尝试把identity加入到神经网络中。最简单的Identity却出人意料的有效,直接使CNN能够深化到152层、1202层等,error rate也降到了3.6%。后来,ResNeXt, Residual-Attention,DenseNet,SENet等也各有贡献,各自引入了Group convolution,Attention,Dense connection,channelwise-attention等,最终Imagenet上error rate降到了2.2%,完爆人类。现在,即使手机上的神经网络,也能达到超过人类的水平。
而另一个挑战——图像检测中,也是任少卿、何凯明、孙剑等优化了原先的R-CNN, fast R-CNN等通过其他方法提出region proposal,然后用CNN去判断是否是object的方法,提出了faster R-CNN。Faster R-CNN的主要贡献是使用和图像识别相同的CNN feature,发现那个feature不仅可以识别图片是什么东西,还可以用来识别图片在哪个位置!也就是说,CNN的feature非常有用,包含了大量的信息,可以同时用来做不同的task。这个创新一下子把图像检测的MAP也翻倍了。
在短短的4年中,Imagenet图像检测的MAP从最初的0.22达到了最终的0.73。何凯明后来还提出了Mask R-CNN,给faster R-CNN又加了一个mask head。即使只在train中使用mask head,但mask head的信息传递回了原先的CNN feature中,因此使得原先的feature包含更精细的信息。由此,Mask R-CNN得到了更好的结果。
何凯明在2009年时候就以一个简单有效的去雾算法得到了CVPR best paper,在计算机视觉领域声名鹊起。后来更是提出了Resnet和Faster R-CNN两大创新,直接颠覆了整个计算机视觉/机器学习领域。前些年有很多质疑说高考选拔出的不是人才,几十年几千个状元“没有一个取得成就”。而何凯明正是2003年的广东理科状元,Densenet的共同一作刘壮是2013年安徽省的状元,质疑者对这些却又视而不见了。
CNN结构越来越复杂,于是谷歌提出了Nasnet来自动用Reinforcement Learning 去search一个优化的结构。Nas是目前CV界一个主流的方向,自动寻找出最好的结构,以及给定参数数量/运算量下最好的结构(这样就可以应用于手机),是目前图像识别的发展方向。但何凯明前几天(2019年4月)又发表了一篇论文,表示其实random生成的网络连接结构只要按某些比较好的random方法,都会取得非常好的效果,比标准的好很多。Random和Nas哪个是真的正确的道路,这就有待研究了。
正由于CNN的发展,才引发其他领域很多变革。利用CNN,AlphaGo战胜了李世石,攻破了围棋。但基础版本的AlphaGo其实和人类高手比起来是有胜有负的。但利用了Resnet和Faster-RCNN的思想,一年后的Master则完虐了所有人类围棋高手,达到神一般的境界,人类棋手毫无胜机。后来又有很多复现的开源围棋AI,每一个都能用不大的计算量吊打所有的人类高手。以至于现在人们讲棋的时候,都是按着AI的胜率来讲了。AI的出现也打脸了很多”古今无类之妙手“,人们称颂了几百年的丈和、秀荣妙手,在当下的AI看来,反而是大恶手。而有些默默无闻,人们都认为下的不好的棋,反而在AI分析后大放异彩了。
AI Time:论道AI安全与伦理
时间:5月31日 15:00-17:00
地点:清华科技园1911主题餐厅
欢迎各位前来参加!
出席嘉宾:
清华大学人工智能研究院院长张钹
中国人民大学高瓴人工智能学院院长文继荣
主持人:
清华大学副教授刘知远
搜狐集团招聘负责人付卓艳
赶快戳下方小程序进入报名通道!
合作媒体:学术头条 搜狐
学术头条已建立微信交流群,想进群的同学请加学术君微信:AMiner308,记得备注:名字+单位/学校噢!
[关于转载]:本文为“学术头条”原创文章。转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“SciTouTiao”微信公众号。谢谢您的合作。
分享干货
AMiner迄今为止已发布18期AI系列研究报告,您可在后台回复 对应数字 获取报告。
推荐阅读:
ICLR 2019论文主题|RL最受欢迎,RNN下降幅度最大,GAN仍在继续发展
清华大学和微软研究院联合发布的“开放学术图谱(OAG)2.0版本”数据完善
微信公众号菜单栏为大家设置了“ 论文推荐 ”和 “优质分享” 专栏,“北京讲座”移至“优质分享”专栏内,欢迎大家关注。
学术头条
发掘科技创新的原动力
您的转发就是我们最大的动力
点击阅读原文 访问AMiner官网
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
Code Reading
Diomidis Spinellis / Addison-Wesley Professional / 2003-06-06 / USD 64.99
This book is a unique and essential reference that focuses upon the reading and comprehension of existing software code. While code reading is an important task faced by the vast majority of students,......一起来看看 《Code Reading》 这本书的介绍吧!