流利说 AI 刘扬：从教授到「AI 虚拟老师」

栏目: 编程工具 · 发布时间: 7年前

内容简介：Alex:刘扬：其实我对这个领域的关注，不是从读博士时候开始而是在清华读本科的时候就开始了。1996年在做本科毕业论文时的主题就是中文的自动分词。中文是一个一个的字，并没有词的这个概念。但是无论做语音识别还是自然语言理解，都需要以词作单位，所以当时本科毕业论文做的就是中文自动分词。当时用的最简单的方法就是从左到右，找一个在字典中可以匹配出来的最长的词，或者再加一些统计模型，用一些HMM/隐藏马尔可夫模型，或其他的一些办法来完成。当时主要是为了语音识别，因为语音识别需要language model。从199

以下为采访实录摘要：

Alex: 大家好，我是 Alex ，是 BoomingStar Ventures 的管理合伙人，也是 Robin.ly 的创始人。 Robin.ly 是一个视频内容平台 ， 主要目的是为了提高工程师和研究人员对于 AI ， 创业以及 leadership 方面的理解。我们邀请了很多AI方面的科学家，知名创业者，投资人，以及一些业内leader，来分享他们在这些领域的心得。今天的嘉宾是流利说硅谷AI Lab的负责人，刘扬教授，她将分享在自然语言处理以及 conversational AI方面的体会 。刘教授在AI和自然语言处理领域有超过20年的经验，获清华大学本科和硕士学位，后又就读于普渡大学并取得博士学位，并在2011年获得了UT Dallas的终身教授职位。她曾获得NSF Career Award 以及Air Force Young Investigator Award等荣誉，并任Google Visiting Scientist及Facebook Research Scientist等职位。2017年，刘教授加入了流利说，担任AI Lab负责人——流利说在2018年9月底成功在纽交所上市。刘教授在普渡读PhD时候的论文是关于语音识别, speech recognition，后在ICSI以及UT Dallas都选择了自然语言处理方向，考虑到当时深度学习和AI并非热门领域，能否介绍下您选择这个方向的初衷？

刘扬：其实我对这个领域的关注，不是从读博士时候开始而是在清华读本科的时候就开始了。1996年在做本科毕业论文时的主题就是中文的自动分词。中文是一个一个的字，并没有词的这个概念。但是无论做语音识别还是自然语言理解，都需要以词作单位，所以当时本科毕业论文做的就是中文自动分词。当时用的最简单的方法就是从左到右，找一个在字典中可以匹配出来的最长的词，或者再加一些统计模型，用一些HMM/隐藏马尔可夫模型，或其他的一些办法来完成。当时主要是为了语音识别，因为语音识别需要language model。从1996年开始，到现在我已经做了20年了。当时在中国从本科一直读到研究生，选择的余地有限。比如，考上清华，在电子系，我们班就是做信息这方面的科学研究，跟模式识别和AI的关系很紧密。当时我所在的组的实验室主要也是做语音识别。所以从本科毕业论文开始，做分词也好，做语音识别也好，以后就很自然的继续做下去。那时候不像现在的本科生，exposed的东西特别多，想想自己对什么东西有兴趣。我们那时候往往是被老师带上了这么一个项目，后来也确实觉得是挺有兴趣，就坚持下来了。

Alex: 坚持下来的原因是觉得课题本身有意思？

刘扬：是的。因为人的语言每天都在用，有很多有趣的现象。举两个例子，比如像我们现在常常用的叫code switching，就是中文和英文夹在一块儿，现在很多双语者都有这个问题，无论做语音识别还是做自然语言理解时都需要处理的一个问题。平常因为在语言中有挺多类似的有趣现象，做这个研究课题就觉得有很多事情可以做。再举个例子，我的博士论文是做conversational speech，spontaneous speech，人们常常说了一个词，又回去再改一个词，或者再重复一个词，这是一种挺常见的现象，或者有不连贯的这种语句，在语音识别中也是一个挺大的问题，我的博士论文就研究这个问题。后来也做过处理小孩子的语言现象，或者是有各种语言问题的语言现象，非常有趣。虽然当时这并不是一个热门方向，但无心插柳，这么多年坚持下来，这个领域在过去几年成为了很流行的话题，应该说我的选择不是特别错误：至少见到自己做的东西，或者落地，或者研究领域，都有一个很大的成就。

Alex: 您是什么时候开始接触深度学习并且把深度学习应用到NLP上面的？

刘扬：我对深度学习的接触历程跟整个领域发展阶段大致重合。从2010,2011年开始，Microsoft或者Geoffrey Hinton这些人开始涉猎这一领域。在语音识别中，MSR的语音识别是一个方向。另外还有computer vision那边也见到了很大的一个成就，那时候我还在学校，有点跟着潮流，看到在其他领域都有挺大的发展，就慢慢地把很多原来用传统machine learning做的事情换成用深度学习，神经网络来做。当时学校里有一个有趣的现象，学生们因为顺着这个研究的潮流，把原来的东西拿过来用深度学习再做一遍。毕业论文答辩的时候，其他的答辩组成员最常问的问题就是：用这个方法做，在科学方面有什么样的贡献，有什么样的发现，仅仅是因为神经网络流行所以跟风，还是确实解决了一个实实在在的问题？所以当时很多学生都面临这样一个问题，既想从研究方面确实对这个问题有深入的理解，但又想跟上整个大的学术界或者工业界所有人的脚步，想赶上这班车。

Alex: 深度学习很多是drawbox的方法，很难去追究它的成本？

刘扬：对，或者说对这个问题的理解。大家现在都强调这个模型的interpretability，你到底有什么样的解释。即使是Google，比如说search这个问题，要不要用深度学习最后去做这个ranking？系统有时候需要解释，一个query处理得好或者处理得不好，要如何去修改。

Alex:2015 年， 您从学校去 Google 做了 visiting scientist ， 当时是出于什么样的考虑 ？ 想去看一下工业界在发生什么吗 ？ 后来您又去了 Faceboo k ， 以及现在的流利说 ， 您的心路历程是什么 ？ 工业界和学术界有什么区别 ？

刘扬：现在回头看，好像从学术界到工业界挺自然，很多教授可能也都是走这么一条路。但当时对我来说主要是一个个人的原因。好多认识我的人都知道，我先生早先在硅谷工作，当时思考这个问题怎么解决。最后决定利用sabbatical leave的机会，到硅谷这边的工业界试试水，所以去Google是挺自然的一个选择。选择Google的原因是，他们对学校sabbatical leave有一个非常成熟的process的系统，所以可以正常申请，到Google找一个researcher一块儿合作一个project。像Apple，Facebook之类的公司，这方面和Google比起来的话，sabbatical leave流程还不是特别成熟。

Alex: 您当时主要研究的课题是什么？

刘扬：当时做的还是NLP。最开始是想做跟information extraction比较像的方向，怎么检测文章中发生的事情，有哪些重要的人。去了之后有一些变化，也做了一些跟别的方面的理解相关的内容，但大部分依然用深度学习解决NLP的问题。工业界的research，一方面跟学术界有些像，确实要找一些research的问题，用先进一点的方法去尝试，即使他们在基础框架上比学校有很多好处，但另一个大的差别是在对研究问题的评估上要考虑产品的影响力。因为毕竟是在产业界，不像在学校在实验室中就可以找一个研究的问题，有可能会解决世界上一些先进的研究上的问题，当然也有可能没有任何实际用处。在工业界进行的研究往往是由实际问题引起的研究，或者他们希望现在做的这些东西将来对公司，对产品，或者对其他现实问题起到很大的影响。

Alex: 您在 Facebook 主要负责什么方面的工作 ？

刘扬：当时去Facebook也考虑了一下究竟应该加入哪个组。 FacebooK研究方面比较红火的就是FAIR，FacebookAI Research。另一方面是AppliedMachine Learning，还有就是Facebook其他的产品组，包括Facebook的ads，NewsFeed，search等。因为在Google做研究的经历，感觉去Facebook的FAIR听起来像是挺自然的一个选择。但当时我认为自己已经在学术界呆了很久，在Google也见过科研，去Facebook继续做这种纯的基础科研没有什么改变，但如果直接进入一个全产品的组变化也有点剧烈。后来找了折中的点就是AppliedMachine Learning，把一些大家可以用的深度学习或者是泛泛的机器学习用到Facebook的产品中。当时看到了很多把各种各样的machine learning应用到在Facebook的ads ranking，feed ranking等产品中，以这样的方式实现了AI落地的应用。

Alex: 您进一步加入流利说的时候，是因为本身的教育背景所以选择了流利说的英语教学这个方向么？出于哪些考虑？

刘扬：有好几点原因。一方面，我相当于是做教育出身，虽然教育跟我们现在做的教育不太一样，但是从情怀讲起来这个还是相关的。另外一方面，是因为跟现在这个公司的创始人原本认识，对这个公司和这个行业比较关注。最后就是因为跟自己这么多年做的语音识别和自然语言理解相关，语言学习是这些研究的一个自然的落地方向。很多业内人士都是在考虑如何将AI和机器学习进行具体应用，第一个能想到的就是教语言，学语言，所以这是特别自然的一个应用。

Alex: 有一个产品叫“雅思流利说”，应该也是你们的一个主打的收费产品。像这种国际型的人语标准化水平测试，最大的问题就是如何保证打分的准确性，您觉得你们在这方面有什么技术优势？

刘扬：这其实是一个挺复杂的技术问题。如果大家参加过托福或者雅思考试就知道，口语考试是给一道题，要求应试者讲半分钟或者一分钟来回答，比如说对动物园有什么看法，对现在的一些政治问题有什么样的看法，一般是有一些agree或者disagree这样明显的性质。或者托福的考官要对这个人说的话进行打分。这个过程是用语言/speech回答了问题，如果要对他/她打分，首先要求这个系统能够做语音识别，我先要知道都讲了什么，所以语言识别是第一步。然后有了语言识别的结果之后，要对学生说的内容进行打分，进行理解。这个里边要考虑的就是他/她的词汇怎么样，语法怎么样，句与句之间的连贯性怎么样，整个篇章/段落的观点表达得合理不合理。所以整个系统看，从语音识别一直到自然语言处理里面包括的点就非常多--从词汇到特别highlevel的段落--篇章都要考虑。就连第一个问题语言识别，也不简单。不仅有中国人的口音还因为这是一个即兴的演讲过程。会涉及到讲话时候的改正，比如一个词说到一半又把这个句子从头开始说了一遍，这对于语言识别来说都是特别特别难的问题。另外中国人讲英语，有各种语法问题，用词不合适的问题。对于声学模型，语言模型来说都特别困难。所以第一步语言识别就已经不容易了，识别出来的这些话可能有很多错误已经包括在里面了。第二步再做自然语音处理的时候要看语法错误，用词错误，连贯性等，依然是很难的问题。当然，这些所有的问题现在都用机器学习做过，其中一些component是用的深度学习，有一些就是传统的machine learning。

最后回到系统打分，雅思考试得了5分，6分还是7分，能跟考官打的分之间的correlation应特别高。这需要通过机器学习的一些方法实现——如果机器已经见过若干人的雅思或者托福口语考试分数，我又见过一些考官打的分，就可以学习什么样的分能跟人打的分相似。所以也相当于是machine learning。我们现在这个系统欧洲或者雅思的官方很认可，打分确实跟考官基本一致，所以现在“雅思流利说”的产品，有很多人用它去练习，希望花一两个月的时间把自己的考试成绩从5分提到6分，从6分提到7分。

Alex: 目前市场上语言学习的产品较多，很多公司声称自己有AI技术，你们在技术上希望怎么保持优势？

刘扬：希望把AI应用到公司产品的各个components上，我们要保持在语音识别技术上最领先的地位，在NLP各个方面同时要保持领先技术，这只是从纯技术这看。要保证公司整个产品都处于领先，除了技术还包括其他，可能比技术占的比例更大的，比如公司产品内容，整个UI design，要使学生能够更喜欢这个产品的要素。刚才提到了一个技术优势，像我刚才说的，识别中国人的语音不是那么容易，中国人的发音，标准音 “I”，可能被不同的人讲出来，有南方口音有北方口音,但都不是英语中所谓的标准音。原来在做传统的语音识别的时候，有声学模型，有语言模型，还有一个叫词典/字典。这个东西要告诉我们这里有一个词，它的发音是什么，这个Robin是要念成r-o-bin这个音吗？但是对中国人来讲，这个音可能念得不是那么准，我如果想用一个字典来把中国人可能读的音都表示出来，不是那么容易的一件事。

在深度学习中无论做语音识别还是做NLP，都有一个端到端的学习，End-to-end的体系。这个系统里没有我们刚才说的声学模型，语言模型，和词典，基本就是一个系统把所有需要包括的东西都包括其中。我们现在也在做这方面的研究，中国人可能读这个音会有3种，5种，10种不同的读音。如果一个End-to-end system能够自动学习中国人发英语这个词的发音，它的这个声学模型依次去建模，就是比较理想的一个状态。我们前几天刚刚提交了iCAST的一个论文，同时放在了Arxiv上，表明这个方面的尝试很成功。现在初步的结果跟传统的结果差不多。但是因为系统简化很多，在public的一个English的dataset中，我们的结果基本上是全世界最好的。所以公司在整个AI，从语音到语言，各个方面都还是想保持技术上的领先性。

Alex: 您认为教育希望实现全面的因材施教，那这里边最大的技术难题是什么？您刚才提到了语音识别，除此之外是不是还有一些数据采集，产品定位，UI/UX，或者说另外一些非技术困难？你们现在最关心的问题或者说最大的难题有哪些？

刘扬：做 “AI+教育” 这个领域，进行personalization是特别重要的一个课题。就像因材施教，这个是在传统的教室中无法实现的，因为一个老师要教30个人，100个人。现在因为每个人都有一个app，希望每个人都可以针对自己的情况去学习。这中间的难点不是AI的难点，是想怎么把用户各个方面的行为给model出来，才能够真正去因材施教。并非只是语音语法这些知识的掌握，更多是行为层面。比如有些人需要老师天天督促学习，另一些人需要老师去鼓励，还有些人是需要老师批评，所以我说的是这方面针对用户的model，或者建模，使得确实能做到personalization。比如，做题容易放弃，或者是需要什么激励才能继续学习下去。我要做强化学习，就要把这个人的所有data point都考虑，最后看怎么用最合适的reward去使teaching更有效，这些都是现在还在尝试中。

流利说 AI 刘扬：从教授到「AI 虚拟老师」

刘扬现场讲述流利说技术难题

Alex: 数据采集本来就是个难题了——

刘扬：对，要考虑究竟哪些data point最合适。

Alex: 用类似测评的 方法吗？

刘扬：对，测评是一方面。但是很多东西不是通过一个简单的测评就知道做错题目背后的原因。究竟只是有一个语法没掌握，一个单词发音不正确，还是有其他各方面的原因，那些东西可能是我所说的技术上面的难度——但不是AI这方面的技术。另一个非技术方面的难题是教育本身，如果这是一个做游戏的公司，客户黏性会很高，今天用了这个产品，明天还继续用；但是教育不是。不是人人都能留在app上，天天都去学习。像刚才提到的雅思考试，也许下个月要考雅思或者再过两个月或一年出国，在这个特别明确的目标下，可能就会去用产品。但只是为了提高自身水平，想学点英语，没有明确目标，就很难让每个人都特别有engagement留在app上，使得他/她每天去学习。公司现在做的一些事情，就是企图做一些social方面的东西使得产品与用户的粘合性更好，或者做一些其他方面的尝试——我们有督学，促学性质的老师天天提醒你，或者建一个群，使得大家能够更motivated的去学习。但究竟怎么是最有效的方式，还需要摸索。

Alex: 记得微软亚院的副院长周明讲过，在认知和语言处理方面，一个很大的因素是不像感知——它还需要一些UI/UX的配合。一个产品UI/UX做得好，用户更愿意engage，才能搜集到更多数据，做更好的模型。您从技术到产品过渡的过程中遇到过类似的问题，怎么能够让您的好技术跟产品很好的嫁接在一起？

刘扬：这属于很多不是做纯技术的人可以解决得比较好的一个问题。比如说AI core的技术在里面，但是需要把它给包装成用户都喜欢用的产品，里面就需要很多像UI/UX或者内容的东西。即使能够识别语言，能够知道语法错误，但怎么把它变成一个每个人都特别适合用的产品——就需要结合合适的内容，还有产品各方面的这几。我们这边有两个人是做内容，每天在考虑怎么去教用户，即使是同样的语法点或者说一个词，要用什么样方式教给用户。这里面有一些动画的设计，有一些内容/topic方面的设计，整体属于大的产品设计。

Alex: 有人把自然语言处理的问题分成了五类 ，比如 classification ， matching ， translation ， structure prediction ，以及 sequential decision process 。深度学习现在用在这些领域都取得了很大的进展对，但是还不完美的地方。您认为深度学习在这五个领域都进行到了什么地步了？还有什么问题是比较难的问题？

刘扬：五个问题中最难的是最后一个问题。classification是人们比较容易理解的问题。比如一段文字，像做classification的这个class可以根据不同的场景去做。有的人是关心，这个人对这篇review（的评价）是正面还是负面，就是评价归类；也可能是做主题归类，一个新闻，识别出是政治，鱼类还是金融或者其他，就是主题归类。这是standard machine learning的问题，传统上有各种各样的machine learning的分类器，从以前特别流行的SVM到最大熵模型，在NLP上面都比较有效。现在用深度学习跟原来的方法没有实质性的变化，但是因为现在的方法简化了很多，原来传统的分类器往往是需要有人去设计feature——

Alex: Feature Engineering

刘扬：对，这方面的工作特别多。如果要做positive/negative sentiment analysis，就要设计个词是正面或负面，要找一些feature。如果做topic，要去做跟这个相关的feature engineering。现在的深度学习就是embedding进去，模型自然就学到了，神经网络里面每一层都展示了不同的东西，最重要的就是系统简化了。NLP不像speech recognization或者computer vision的改进特别大。深度学习在NLP上面没有翻天覆地的变化。

Alex: 最早的深度学习是用在语言 /speech 上面的 ？

刘扬：对，用在speech上面，我指的NLP是传统的textbased的NLP。当然也可能问题是，text本来就是一个个符号化这个token，但演讲或者视觉本身有连续性的特征，深度学习也许更适合。除了classification，还有一个是sequential。一句话，要把这里面我想要找出的东西找出来，一个问题就information extraction，或者named-entity recognition。一句话我要找出来，这里面有一个实体是表示姓名，可能是人名，还有一个表示餐厅，地点的名字，可以把它算成是sequence labeling 。一串的sequence其中有几个是想找的有趣或者关注的。传统上的模型叫HMM，或者CNF，现在都用深度学习取代了，就是RNN，LSTM这些性质的模型，表现很好。对刚才说的classification的问题，也是省了很多feature engineering的问题。翻译是第三类问题，现在基本上已经代替了传统翻译用的phrase-based translation的系统，基本上现在Facebook， Google，Microsoft等所有的公司都在用不同的深度学习，大家在框架上是稍微有一点点差别，但都是基于深度学习的翻译体系。这是业界公认有效的一个体系。最后的一个问题就是sequential decision process，不管是深度学习还是传统的machine learning都还没有解决这个问题。每天跟Siri或者Alexa讲话都是multi-term conversation，我们往往说几句话就意识到，这个系统完全不行。一句话，有时候它还能回答。一句话如果让它做classification，它知道问的是哪一个问题——要找一个人还是问一个地点，这是简单的可以回到份内的问题，或者回到matching的问题——在一个很大的数据库中可以找到类似的答案，但是如果需要建模个人的对话，从第一句话到第二句话，到第三句话，还有你我分别说了什么，这个整体的谈话历史的构建，暂时还没有特别好的解决方法。

Alex: 您未来三五年的工作方向是什么？

刘扬：像我刚才说的，公司还是想做AI在教育方面的应用。短期来看还是语言学习，将来这个教育能够扩展到哪些领域，现在还不是特别确定。但即使从语言学习这个方面已经很多事情需要做，把AI做好，从语言识别到自然语言理解。自然语言理解包括方方面面，从词到语法，到语义，再加上对整个世界各种common sense的knowledge都要model，使老师能够有效的去教学生。加上刚才提及的，要对学生各种各样的行为建模，使他们能更好的personalized learning。在未来一到三年，要做中国人的语言，也可能包括其他语言，对不同年龄层——成人，儿童的英语——进行建模，不是件特别容易的事情。

Alex: 今天听了刘教授对自然语言处理技术的一些分析，以及她对于流利说如何把技术利用在教育领域的感想，受益匪浅。同时也了解到刘教授从一个顶尖科研人员到涉足产品技术，帮助AI应用，以及成为工程师的职业转变。希望对大家有所启发。谢谢刘教授！

刘扬：谢谢！

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

Java数据结构和算法

拉佛 / 计晓云 / 中国电力出版社 / 2004-02-01 / 55.00元

《Java数据结构和算法》(第2版)以一种易懂的方式教授如何安排和操纵数据的问题，其中不乏一些难题：了解这些知识以期使计算机的应用获得最好的表现。不管使用何种语言或平台，掌握了数据结构和算法将改进程序的质量和性能。《Java数据结构和算法》(第2版)提供了一套独创的可视讨论专题用以阐明主要的论题：它使用Java语言说明重要的概念，而避免了C/C++语言的复杂性，以便集中精力论述数据结构和算法。经......一起来看看《Java数据结构和算法》这本书的介绍吧!

码农工具