Robin.ly 是一个全新的视频内容平台,旨在为广大工程师和研究人员提高对商业,创业,投资,领导力的理解。第一期是Robin.ly创始人Alex Ren采访著名的 AI的青年学者、深鉴科技的联合创始人和MIT的助理教授韩松博士,内容是他对AI及创业的看法。 以下为采访实录摘要: 完整视频请在文末扫二维码关注
Alex:大家好,我是Alex Ren, 是BoomingStar Ventures 的管理合伙人,也是Robin.ly 的创始人。今天是我们Robin.ly新的内容平台的首发视频。今天我们特意邀请了韩松博士, 他专做AI Research,过去几年里,发明了像深度压缩,最近在做的DGC(Deep Gradient Compression),并创立了深鉴科技(现已被Xilinx收购)。 这些一系列的AI Research 和 创业过程,我相信有很多东西可以和大家分享。韩博士,你大概去MIT多久啦?
韩: 我是今年暑假去的。
(视频截图 韩松为左,Alex为右)
Alex:你当时选择AI和计算机架构的方向,你是怎么考虑的?
韩:对,2012年的时候 正好是AlexNet,ImageNet得到了Breakthrough的准确率的提升。但是呢,它的计算量是非常大的。AlexNet当时是240MB的模型大小, 1.5B的计算量。1.5B 跟中国的人口是一个量级的。但是这样的模型逐渐持续下去的话,数据逐渐在升,计算量逐渐在升,但是硬件模型逐渐在放缓,中间肯定会有个交叉,这就是我们的机会。这个交叉的地方将来会是一个bottleneck。这也是我们后来research的一个机会,紧随这样的痛点。
Alex: 所以你之后在2016年在ICLR上发布了一篇关于深度压缩的文章,那篇文章也获得了最佳论文。当时你灵感的来源是什么?当时怎么会想到用这个方法去解决这个问题?
韩: 嗯!这是个挺好的问题。我们之前试图解决AI 效率的问题,先从硬件的角度去解决。我们试用了各种方式,能让它充分的利用片上资源,减少片外的访存。但是发现,这些方法,只在硬件角度上解决是不够的。我们要找到源头,问题出在哪?参数量太大了?算法的冗余度太高了?其实在16年那篇paper之前,我们在NIPS 2015先发了篇文章 “Learning both weights and connections for efficient NN”它是说,我能把原来很多参数量,把它减少。比如说AlexNet,60Mparameter,我把它减到6-7Mparameter。但是可以实现同样的准确率。这样的话,从源头上就可以把这样的问题做简化。然后再做efficient hardware architecture。这样从algorithm &hardware co-design,这样的design 空间非常大,也可以彻底解决问题。
Alex:那后来2017年的时候,你在FPGA2017 也发表文章提出了ESE (EfficientSpeech Recognition) 你曾说过,深度学习最大的瓶颈在于带宽而不是计算。这是怎么理解的?
韩:说到计算机系统,它有几个组成部分,计算是一部分,缓存是一部分,networking又是另一部分。它们都是非常重要的。就仿佛一个木桶,你要用这个木桶来装水,它最短的bar决定了它能装多少水。所以计算,缓存,networking,哪个最差就决定了你的效率是多少。举个例子。比如第一代的TPU,它的计算能力是非常高的,但是它的memory bandwidth不够。所以即使你有很高的计算能力,你的内存带宽不够,所以限制了它的utilization。就好像LSTM,RNN,它的 利用率只有10%不到,但是后来TPU的下一代,就解决了这个问题。所以当你把内存带宽提升之后,它的utilization得到了很大提高。另外从energy的角度,比如说在45纳米的工艺底下,算一个32bit的乘法可能5pJ 。但是去 off chip DDR 去拿这个数,要640pJ, 这是两个数量级的差距。所以,computation is cheap, memory is expensive。
Alex:这也是为什么你最近又提出了一些方法 比如 DGC (DeepGradient Compression)?能稍微给大家介绍一下这是什么吗?
韩:DGC (Deep Gradient Compression) 是我们最近提出的一个算法,它是针对 Multinode Distributed Training, 也就是大规模的并行计算。我们核心解决的一个问题是,想减少我们的训练时间。原来我训一个网络可能一天,一个礼拜。一种方法呢,是增加GPU数量。这样的话,好几个GPU 一起训练,可以减少计算的时间。但是这样就带来一个问题是,大家communication的时间变多了,overhead变多了。因为你很多GPU要coordinate,大家要exchange gradient。这怎么解决呢?我们能不能少communicate一个东西?然后我们就提出了Deep Gradient Compression。Gradient是我们需要exchange的东西。我们发现,大概只有千分之一的gradient actually need exchange,其他都可以不exchange。这样我们可以把communication bandwidth减少大概200-600倍。
Alex:那我相信很多training的公司应该是很感兴趣这个东西啊!那你在斯坦福大学博士毕业之后,选择了去MIT做助理教授。你看工业界,很多 Google,Facebook也是做深度学习,AI 这方面的研究。你怎么看工业界做研究,和你们(学术界)做研究 有什么区别?你是怎么样和他们合作的?
韩:嗯!这个问题非常好。工业界有很多资源。一是场景非常丰富,二是计算资源非常丰富,三是工程师资源非常丰富。学校里,这些资源是和工业界没法比的。但在学校里一个好处是,能跟很多公司一起合作,比如说,现在sponsor我们实验室的,大概有10家公司,我可以和这十家公司都合作。他们有不同的需求,看到了不同的问题。可以看到很多,从软件到硬件,各个层次所面临的,他们的痛点。然后帮他们解决痛点。解决痛点的本身,就是make breakthrough的过程,所以视野还是比较开阔的吧!
Alex:最近你好像也参加了一个会,Hot Chips 2018,前两天。我记得你做了一个tutorial 对吗?Topic 是 “Accelerating Inference at the Edge” ,因为正好是深鉴科技被Xilinx收购之后。你们有什么新的东西可以给没有参加的人做个分享吗?
韩:我们当时首先回顾了神经网络处理器的几个发展历程吧!先是specialized computation,后来人意识到computation is cheap,memory is expansive;所以第二代是 specialized memory,如何减少DRAM access,充分复用之前的data。前两部分都假设algorithm is algorithm,然后去提升硬件;第三代的是algorithm &hardware co-design,把模型先做的efficient,把它压小。把大的模型压小,减少memory footprint,再去加速这样比较efficient的模型;第四代就是,我们从小模型开始,我们不用压它,直接就设计比较小的模型。然后为这种小模型做specialized inference。
那么这次深鉴科技也是基于第四个idea去做了基于MobileNet depthwise convolution的知识架构。Depthwise Convolution,它的channel之间没有reduction,它 data reuse没有之前的convolution好。所以对应的提出了一个新的challenge。我们可以用新的架构去有一个单独的pe(processing element)去处理depthwise convolution,比之前的效率要高很多。
深鉴科技团队 韩松(左一)
Alex:在你目前的职业历程里面,有个短暂的break,在斯坦福读博士阶段的时候,你参与创立了深鉴科技,并卖给了Xilinx。这是特别有意思的一个经历。那这段大概两年多时间的经历里,你最大的takeaway是什么?
韩:深鉴科技我觉得创业历程上最重要的体会就是,人非常重要。有一群靠谱的真心做事的兄弟在一起,一起做一件事。俗话说留得青山在,不怕没柴烧嘛。无论遇到什么困难,只要我们团结一心,肯定都能克服。我们从成立到现在,两年多吧,技术核心的同事们 没有一个掉队的,没有一个离开公司的。
Alex:那这过程中,我相信你们应该也遇到一些挫折吧?你当时觉得最大的一个困难是什么?你又是怎样克服的呢?
韩:当时刚创业的时候,那是15年底,北京一个寒冷的冬天,我和姚颂,还有几个同事,我们当时租了辆小面包车。在中关村上地这一带融资,当时就很困难。当时深度学习处理器这一概念还没像现在那么火,大家不觉得这是一个must-have的东西。那时候融资真的非常困难。整体大环境上,没有像现在 大家认识的那么明晰。不确定的因素很多。然后我们当时走访了很多投资的投资人,但是都没有拿到investment。后来我来到斯坦福,当时开学之后,在斯坦福周围继续pitch。包括当时后来也在斯坦福上了一门Public Speaking的课。
我发现,从你做research,能把这东西做出到,到你能把这东西讲出来去讲给不懂的人,或者不是内行人,这还是有一个gap的。当时那门课,一是教我们一些presentation 的技巧,二是教我们如何把一个东西给讲懂。我觉得也是非常有意义的。我们在斯坦福校门口,University Avenue,金沙江(GSR Ventures),张予彤 还有 林仁俊 (Richard)他们后来投了我们。后来就比顺利了,包括岳斌岳总(高榕资本),他们三月份单独飞到湾区,我们还聊了一次。后来就比较顺利了。
Alex:所以我觉得比较有意思的是,你是一个typical AI Researcher, 到entrepreneur,你对现在的一些AI Researcher,有心想去创业的,你对他们有什么建议?
韩:我觉得Know your customer。所以说有时候我们觉得技术是高大上的,可能技术能解决一切,但实际不是这样的。怎么能让技术能有一个生态?不是单独一个点,你要把它展成一个面。比如说,如果我只拿Deep Compression 一个算法来创业的话,这是不行的。一是它容易被复制,二是它的capacity没有足够大。用户不会有粘性。 后来我们加了silicon,加了硬件,加了计算机结构这一块,就使它从一个点到一个面,从上到customer,从底下到技术,整个堆栈就把它打通了。
Alex:嗯!好的!今天很荣幸,听韩松博士分享关于他做AI research一路以来,以及创业的心路历程。希望大家有兴趣继续跟韩博士交流,有兴趣去读他的博士,或者去实习。请继续关注韩博士这边研究的进展!谢谢大家!
想看更多访谈或参与我们的线下活动,请扫二维码关注我们的网站及订阅号(Robinly):
Robinly内容团队坐标硅谷,从创业、领导力和人工智能三个角度去剖析成功创业者、高科技领导者、人工智能科学家和知名投资人的职业养成过程和他们对于这些领域的观点,我们力求追本溯源,为广大工程师、研究者提供一手的职业学习内容。
产业 MIT AlexNet 韩松 深度学习 神经网络 深鉴科技
相关数据
Neural Network
(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。
来源:机器之心
AlexNet
AlexNet是一个卷积神经网络的名字,最初是与CUDA一起使用GPU支持运行的,AlexNet是2012年ImageNet竞赛冠军获得者Alex Krizhevsky设计的。该网络达错误率大大减小了15.3%,比亚军高出10.8个百分点。AlexNet是由SuperVision组设计的,由Alex Krizhevsky, Geoffrey Hinton和Ilya Sutskever组成。
来源: ImageNet Classification with Deep Convolutional Neural Networks
Speech Recognition
自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。
Deep learning
深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。
来源: LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.
Laiye
来也的愿景是通过AI赋能,让每个人拥有助理。C 端产品小来是智能化的在线助理,通过业内创新的AI+Hi模式,提供日程、打车、咖啡、差旅和个性化查询等三十余项技能(覆盖400w用户和数十万服务者),让用户用自然语言发起需求并得到高效的满足。B端品牌吾来输出知识型的交互机器人和智能客户沟通系统,帮助各领域企业客户打造行业助理。目前已经在母婴,商旅,金融和汽车等行业的标杆企业实现商业化落地。
Deephi
深鉴科技成立于2016年3月,定位为深度学习硬件解决方案公司,将以自主研发的深度压缩与深度学习处理器(DPU)为核心,打造最好用的解决方案和最高效的整体系统,提供硬件+芯片+软件+算法的完整方案,方便所有人使用。同时,深鉴主要瞄准智慧城市和数据中心两大市场,可帮助用户为多种智能安防场景打造稳定高效的解决方案。
Accuracy
分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数
Long Short-Term Memory
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
Design and Analysis of Distributed Algorithms (Wiley Series on P
Nicola Santoro / Wiley-Interscience / 2006-10-27 / USD 140.95
This text is based on a simple and fully reactive computational model that allows for intuitive comprehension and logical designs. The principles and techniques presented can be applied to any distrib......一起来看看 《Design and Analysis of Distributed Algorithms (Wiley Series on P》 这本书的介绍吧!