内容简介:在李航身边工作是一种怎样的体验?有的同学说,当然是很开心,都知道他是行业里的技术大牛,在微软亚洲研究院、华为诺亚方舟实验室等知名机构有着丰富的从业经历。还有很多同学说,其实也没有那么神秘,他总是穿着衬衫西裤而不是码农的T恤,开会带着纸质本子记东西,习惯用手表看时间,温和儒雅,一副大学教授的样子。
在李航身边工作是一种怎样的体验?
有的同学说,当然是很开心,都知道他是行业里的技术大牛,在微软亚洲研究院、华为诺亚方舟实验室等知名机构有着丰富的从业经历。还有很多同学说,其实也没有那么神秘,他总是穿着衬衫西裤而不是 码农 的T恤,开会带着纸质本子记东西,习惯用手表看时间,温和儒雅,一副大学教授的样子。
他的另一个身份是《统计学习方法》的作者,这本书被很多人亲切地称作“蓝宝书”,是不少同学入门机器学习的启蒙读物。他出版过三部学术专著,并在顶级国际学术会议和期刊上发表过上百篇论文,拥有40项授权美国专利。
最近,李航的《统计学习方法》第二版即将发布,字节君和他聊了聊, 他就新书的内容、加入字节跳动的体验、年轻技术人的成长、机器学习的未来和人工智能的发展趋势等话题与大家进行了分享。
关于新书
Q:《统计学习方法》第二版相对于第一版有哪些更新?
A:统计学习即机器学习,第一版主要是介绍了监督学习的算法与模型。第二版主要是在过去六年的时间里,补充了无监督学习的八个方法,并对第一版的监督学习方法做了一些修改。虽然目前90%以上的机器学习都是监督学习,但无监督学习其实是机器学习的重点和难点,即让机器自己发现数据里的规律,它是未来实现强大人工智能的重要推动力。未来我还准备花3-4年时间把深度学习和强化学习加进去。因为我都是业余时间写作,所以花的时间比较久。
Q:很多人把《统计学习方法》叫做蓝宝书,是入门机器学习的启蒙读物,但一些学生看这本书会觉得吃力,能不能推荐一些入门的方法?
A:这本书的内容本身是最基础的,也就是机器学习领域大家都应该掌握的东西,从这种意义上来说确实是一本入门书籍。但是我并没有从入门的角度写这本书,而是更多地把一些最基本的概念,提纲挈领地整理出来,也是我自己再学习和思考的过程。你也可以认为是从教材的角度来写这些内容,因此这本书适合多次阅读,需要经常查看,而不是看一遍就了事。
这本书比较适合有一定基础的读者,主要是数学基础。它不太适合特别入门的初学者,也不太适合概率论、统计学都不太了解的入门者,这些基础知识可以通过其它课程或教材快速补全。当然,读者也可以一边阅读《统计学习方法》,一边补全基础知识,这样学习可能效率更高。
当然,我希望《统计学习方法》不仅仅是教材,它还能为业界的工程师提供一些有用的帮助。
Q:能不能给我们分享一下经验,年轻技术人员如何自我成长?
A:我觉得有几件事情比较重要。一是建立远大的理想和目标,选择自己喜欢做的,擅长做的,能给自己带来利益的事情的交集去做。制定有挑战的目标,想想希望自己5-10年后成为什么样子。二是一旦有了目标之后,在日常的工作中扎扎实实地去做。其实没有捷径。
另外,我们谈到技术人员的工作的时候,科学家和工程师的思维方式应该是不一样的。工程师的思维方式应该是面向问题解决问题,而科学家的思维应该是建立普世价值的理论和方法。在AI Lab的同事们更是这样,需要明确自己当前做的工作是哪种性质的。理想是不断培养自己两方面的能力,但也有侧重。
关于加入字节跳动
Q:问答社区上有一个问题“如何评价李航加入今日头条母公司字节跳动?”,所以你为什么加入字节跳动?目前为止,感觉如何?
A:字节跳动有很好的产品和大量的用户,有人工智能研究需要的大数据,公司也有很多优秀的人才,总之这里拥有做技术开发最好的环境,有很多有意思的问题可以和大家一起去做。事实证明,这是一个正确的决定,公司的机制和文化很好,大家做起事来心情愉快,效率也很高。
Q:越来越多人工智能方向的专家从校园走向了工业界,怎么看待这种现象?
A:这取决于你自己想做什么事情,学校适合做研究,工业界更偏产品和应用。人工智能时代需要利用大数据,学校很难有这样的环境,促使很多老师选择到工业界。计算机科学领域,现在跟以前有很大的不同,以前的研究很多是大学先工业界后,现在是共同推进,甚至是反过来了。
我先后在NEC和微软的研究部门工作过,它们更像是传统工业界的研究部门,不直接负责产品的开发。字节跳动是我待过的第4家公司,这里的研究部门是这当中最接近产品的部门,很多东西需要在实际的场景中应用,这很接近美国的一些互联网公司的做法,既有偏产品的工作又有基础研究。
Q:你享受这种balance吗,难道它不是一种角力吗?
A:我个人意见:理想的情况是70%的精力做应用,30%放在相关的基础研究上,当然中间没有一个清晰的界限。我们需要为未来做一个很好的布局。这是这个时代技术发展的必然趋势。很多东西需要有现实数据以及实际场景去验证,机器学习本来也是这样一种技术。所以我很享受这种balance,而不认为是角力。
Q:现在主要在解决什么问题?
A:做好内容平台。目前主要是开发自然语言处理和机器学习的技术,希望能够开发出更好的智能信息处理技术,帮助大家更好地获得信息和知识。比如跟搜索团队合作的精准问答,是为了帮助用户更加精确地获取高质量的信息。还有在头条的新闻推荐,用算法帮助提高内容质量,打压低质内容,提高优质内容。
综合来说就是要让每个用户在信息获取过程中有更好的体验,真正得到自己想要的东西。最理想的状态就是我们每个人都有智能助手,想要什么信息助手就给你什么。
Q:你最初读的是电气电子工程专业,为什么最终进入了机器学习领域的研究?
A:算是机缘巧合吧。我最早接触人工智能,是大一的时候在京都大学的人工智能实验室,80年代末是人工智能很火的时候,那会儿看到机器翻译、图像识别就觉得很有意思。到90年代,我在日本NEC公司的研究部门工作,偶然的机会加入机器学习的小组,开始了研究之路。
这期间经历了人工智能的起起落落,但也感受到了整个领域的巨大发展。那个时候只有专家在讨论AI,现在变成家喻户晓,大家都能去评论的话题,最典型的就是AlphaGo。我们也已经在使用很多人工智能技术的产品,这是一个质的飞跃。不好的地方是,感觉大家会有一些浮躁,我们的研究和技术开发还是应该更扎实一些。
能坚持在研究路上的秘诀可能是保持年轻的心态吧,我感觉现在的心态跟20年前读博士的时候没有什么不同。做研究很痛苦,也很快乐。要去做出一个比已有的方法更好的方法很不容易,研究过程中的挫折和沮丧也挺多的。但当你把一个确实work的东西做出来的时候,你确实会有很大的成就感。可以比喻成长跑,跑的过程当中会觉得自己很累,但是当你到达了终点,会享受到完成一件事情的快乐,大概就是这种感觉吧。
Q:所以你算是见证了人工智能在中国的发展,你看好它的发展趋势吗?人工智能的未来到底是什么样的?
A:是的,2002年复旦大学组织过一个机器学习研讨会MLA,当时只有不到30人参会,但现在已经是近千人的规模了。不到20年的时间,人工智能在中国已经有了突飞猛进的发展,这是让人意想不到的。
中国市场大、人才多、从业者努力,这是别的国家没有的优势。但是也要注意到,我们在创新方面的能力离美国还有一定距离,这可能需要几代人的努力。目前最基本最核心的概念和方法大多还是在美国开发出来的,我们的快速发展更多还是体现在产品落地上。我相信我们速度很快,但还是需要不断努力,不断提高自己的创新能力,真正的创新还是需要挺长时间的。
我们可以把人工智能理解为人类很好的工具,不要把它特别的夸大,至少未来很长一段时间内是这样,就像你的秘书或者助手。
关于机器学习未来
Q:你最近的一篇论文重点讲了脑科学,有一个观点是说机器学习很重要的内容就是对人脑的研究,所以脑科学给人工智能带了来什么?
A:科学发展到今天,我们对外部宇宙有了不少了解,但是对我们自己内部的“宇宙”——人脑,我们了解得还远远不够,这是当今最大的一个未知领域。脑科学就是研究这个问题的科学领域。从计算机器的角度看,人脑是一个非常了不起的计算机,它的能耗还不到30瓦,就能做那么多复杂的计算。
人工智能希望开发智能性的工具,离不开对人脑信息处理机制的了解。脑科学的发展,对人工智能是有启发和指导作用的,特别是自然语言处理这一块。人工智能有三大应用领域——声图文,也就是语音、图像、文字,语言是最难的了。前两者是感知能力,而语言是认知能力。此外,看或听一个东西的时候,只是大脑的局部在工作,但使用语言的时候,是整个大脑在工作,所以说非常复杂。如果我们希望计算机能够像人一样去操作语言使用语言,那就需要对人的语言处理机制有进一步的了解,关注脑科学的研究成果,多去进行跨学科的研究。
Q:机器学习如何跟深度学习结合?
A:《统计学习方法》的第一版中,介绍了很多算法,都是非常基础与经典的机器学习方法,但是在深度学习时代,我们更多的是根据经验、实验和「启发式」方法理解模型,这些经典算法被大家关注得比较少,反观常见的深度学习方法与技巧,却不一定有传统方法那样的理论。
其实传统机器学习与深度学习在技术上是一脉相承的,中间并不可以割裂。在我面试员工的时候,也会发现这样的问题,大家对深度学习了解得很多,但对传统机器学习了解得非常少。这种现象并不好,例如我们在 TensorFlow 上实现某个模型,然后就直接跑实验,这样对很多基本概念了解得都不够。理想情况下,我们应该更全面地理解机器学习的概念与理论,再做深度学习实践,也就是说对传统机器学习的理解有助于更好地掌握深度学习技术。
此外,尽管深度学习在众多任务上都有极好的效果,但也不能说传统机器学习就没什么用了。例如在小数据集或简单问题上,SVM 或 GBDT 这些方法在实践中用得还是挺多的。
Q:有人说机器学习无疑是最有希望实现突破的方向之一,你怎么看待这个判断?对机器学习的未来有什么期待?
A:机器学习是人工智能的核心领域,几乎所有的人工智能技术其实都是机器学习技术,无疑机器学习技术的发展决定了人工智能的未来。希望机器学习能有更多的突破,促进整个领域的发展。我认为,长期来看,机器学习与推理和知识的结合,类脑学习或类脑计算是这个领域的未来发展大方向。
Q:近年各种自然语言对话系统如雨后春笋般地涌现,所以计算机多大程度上可以自如地和人进行对话?自然语言对话的挑战在什么地方?未来可能会有哪些突破?
A:从功能的角度,计算机也有可能能够像人一样,自如地进行自然语言对话,但是现在这个命题无法证真或证伪。原因是尚不清楚人脑的语言理解机制,用计算机完整模拟人的语言理解仍然非常困难。但在特定领域,特定场景下,和人一样进行自然语言对话的计算机的实现,我们已经看到。问题是如何进行扩展,能够以更低的开发成本覆盖更多的领域和场景。
语言理解的核心是向内部表征的映射。多义性和多样性是计算机进行语言理解最大的挑战。要完成具体的任务,体现计算机的智能性,定义和使用内部表征看来是不可或缺的。基于分析的方法本质上是重要的,甚至是在聊天机器人的场景。基于检索方法更适合于单轮问答的场景。基于生成的方法只能用于特定的场景。多轮对话要体现完成任务的整个逻辑,有限状态机表示。开放式的对话意味着动态地改变任务,所以在现在的技术条件下,是非常困难的;在特定领域任务明确的条件下的对话,现实可行。
近年,深度学习和强化学习的使用,使得对话有了长足的进步。主要体现在表征学习、端到端学习上。事实上需要符号表征和神经表征,深度学习和符号处理的结合,这应该是未来发展的重要方向。
Q:最后分享一部你最喜欢的科幻电影吧?
A:我看的电影不多,印象深刻的AI相关的是斯皮尔伯格导演的《AI》,让人去思考机器与人的智能的本质区别。
福利时间
留言你期待看到的深度学习或强化学习内容
点赞top10 将获赠
新版“蓝宝书”作者签名本
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:- 年轻人的第一篇OpenGL ES 2.0教程
- 年轻人的第一个 Spring Boot 应用,太爽了!
- 2020 年,陆奇 59 岁:我给 20、30、40 岁年轻人的建议
- 程序员“不惑”的 30 岁到了,就该给年轻人让位吗?
- 年轻人不讲武德,乱用索引,你到底走了多少弯路?
- 年轻人的第一个go程序:监控数据库字段 报警
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
Beginning Apache Struts
Arnold Doray / Apress / 2006-02-20 / USD 44.99
Beginning Apache Struts will provide you a working knowledge of Apache Struts 1.2. This book is ideal for you Java programmers who have some JSP familiarity, but little or no prior experience with Ser......一起来看看 《Beginning Apache Struts》 这本书的介绍吧!