您的位置 首页 英语外教

专访“流利说”首席科学家林辉:如何用机器学习帮助中国人说好英语

由于长期接受“哑巴英语”的语言教育,大多数以英语为第二语言的中国人一直存在一个问题,那就是读写能力强,口语能力差。但由于资源有限,并不是所有需要提高口语的人都能得到外教一对一的辅导。针对这个问题,流利说的解决方案是利用人工智能技术帮助国人提高英语口语。

流利说成立于2012年,迄今已获得约3600万用户。流利说的主要功能是提供文字,让用户跟着读,然后系统会根据用户发音的准确程度给出评分和建议。流利说APP提供的素材涵盖了从日常对话到留学、面试等诸多场景,因此受到了广大英语学习者的追捧。

但这款根据指定文字阅读的产品,就没那么简单了。其背后是流利说利用机器学习技术帮助国人全面提升英语水平的雄心。

流利说首席科学家林辉在接受PingWest品玩品玩采访时表示,早在2012年公司成立之初,公司就决定将机器学习技术应用于语言学习。但由于创业公司缺乏数据,而机器学习需要大量的数据训练才能非常智能,流利说决定先上线上述后续功能,采集中文语音数据。

历经4年3600万用户,流利说掌握了大量不同层次的中国人说英语的语音数据。并且由于这些演讲与提议的文本相结合,因此它们是一种对机器学习系统更有价值的标记数据。

根据流利说与新浪教育联合发布的《中国英语口语白皮书》,流利说收集了广泛的用户学习行为记录和2.75亿分钟、31.9亿句的庞大记录数据库。

截至目前,流利说基于这些数据推出了两款服务产品,分别是Know Your English和雅思流利说。Knowing Your English利用循环神经网络的深度学习模型,赋能流利说自适应学习系统的自主学习能力,让学生持续接触到更多、更相关的学习内容。

此外,刚刚上线的流利说雅思流利说也利用上述语音数据训练的人工智能系统,帮助雅思考生完成评分评估和备考计划。由于雅思口语考试的主观性,雅思流利说能够准确理解考生的意思,给出相对客观的分数。

在上周PingWest品玩举办的HAY!16大会上,PingWest品玩采访了流利说联合创始人兼首席科学家林辉。他为我们详细讲解了流利说这四年来的产品研发:用工具积累数据,用社区沉淀用户,再用数据打造人工智能口语学习服务并实现商业化。

流利说的主要队员,林辉是左边第一个

林辉博士毕业于西雅图华盛顿大学,曾在谷歌美国总部担任研究科学家。他还是语音识别、自然语言处理、深度学习和大数据挖掘算法方面的专家。在相关领域发表国际论文30余篇,拥有多项中国和美国专利。

以下为采访实录:

PW:您能简单谈谈您的个人经历吗?

林慧:我读的是博士。2006年在西雅图华盛顿大学,主要研究机器学习,做了一些理论研究。当时在自然语言处理方面做了一些应用。总的来说,我从事这个领域已经有十年左右的时间了。在那之前,我在清华做的也是技术方面的。那时我在电子系。当时,MSRA,也就是现在的微软亚洲研究院刚刚成立。当时还没有决定是去工作还是出国,就读了硕士,硕士期间有机会在微软亚洲研究院实习了半年。

我觉得MSRA的经历对我影响很大。那个时候它其实是有一些尖端的、前沿的技术研发的。可以看到AI火到今天之后,之前有一半以上的人留在了MSRA。他们当时做的是AI相关的,我当时做的也是语音识别相关的。

那次经历让我觉得做一些比较新的技术,比较前沿的技术研究,其实是很有意思的。所以在那之后,我决定去国外读博士。当然,当时做出这个选择的原因之一是:我觉得自己在技术和工程方面没有任何问题,但是希望自己能够进一步学习,学习更多这种更深入的技术,比如机器学习。于是就去美国读了博士,读博士的方向也比较偏向于机器学习理论的研究,比较理论化。

那时候我觉得,首先,我对这个新事物,这个未知的东西,有一种强烈的好奇心,希望能探索和发展一些方法。另外,我希望自己做的事情能够真的不停留在理论上,不只是发表一些论文,而是有一些真正的价值,影响人们的生活。这也是我积极去行业实习的原因。.

在攻读博士学位期间,我去了谷歌实习。谷歌给我留下了深刻的印象。不同于以往所有其他大公司的研究机构。它的研究和生产结合得非常紧密,就像产品和业务一样。它的科学家都在产品组,都和业务组在一起。您所做的事情(如果完成的话)会直接影响数百万用户。

当时觉得挺有意思的,因为我在微软亚洲研究院实习的时候,就是在做演讲相关的事情。当时觉得语音识别不成熟,效果不好。不过当时谷歌做了一个产品叫语音搜索(Voice Search)。我用过它,发现它很棒。它确实解决了我的一些问题。只是有时候不方便的时候,如果想在手机上搜索,直接用语音搜索就可以了,而且很准确,我觉得很有意思。

PW:那是什么时候?

林辉:那时候是2010、2011年,语音搜索其实挺早出来的。但是谷歌的优势是什么?也就是说,它可以通过文本的搜索查询(搜索语句)更好地判断人们在说什么。因为基本上每个人的搜索意图都差不多,无非是形式不同,是用语音还是文字搜索。但谷歌之前已经整合了许多文本搜索的查询库。

Google推动Voice Search的策略其实对我们现在做流利说很有帮助,就是如何冷启动跟人工智能相关的东西。当时谷歌在做一个项目叫411,就是通过用户打电话,然后查询一个地名。看似这个项目比较普通,其实就是在收集数据。

因为当时电话查询在美国还是比较普遍的,通过这个项目,积累了很多数据,也就是语音对应的数据。

流利说其实就是这样一种策略。我们一开始要解决的问题是什么?用户说的问题是哑巴英语。中国人学哑巴英语这么多年了。那么我们希望对英语口语做一个评价和打分。从本质上讲,我们想做的可能更多的是认可你所说的。

但是我们一开始没有数据。作为一家初创公司,当时我们只有三个人,刚开始的时候也没有募集资金。

PW:你什么时候开始做的?

林辉:我们是2012年9月开始的,那时候移动互联网刚刚起步,反正这个具体的故事可以再谈,但现在我会把重点放在数据上。

英语流利说懂你英语靠谱吗

一开始我们其实没有数据,怎么能做出一个语音识别的东西呢?后来这里其实有一个很巧妙的事情,就是我们先推出一个产品,可以帮你收集数据的同时解决问题。回答用户的其他一些问题,这个事情是语音评分,还有阅读评分的事情。

为什么阅读和评分比语音识别更容易?因为文字是给我们看的,你只需要看就行了,不需要认他说的,你只需要看他说的和预设的要说的文字和台词是不一样的。具体来说,不是语音波形的对比,但原理上确实有点相似。它的复杂度没有语音识别那么复杂,因为语音识别的不确定性更大。我怎么知道你要说什么?但是阅读量比较有限,也就是说,我知道你真的应该去读这句话。你再胡说八道,我就给你低分,完了。我其实不需要知道你说的是什么废话。

当然我们当时用的是先用一些开源的数据做一些冷启动。因为任务本身并没有那么大的挑战,所以我们能够发布这个产品并且有一个很好的体验。这样,当你的技术真正落地的时候,就会有很多人使用。在使用这个的过程中,它实际上为你提供了大量的数据,所以当你的用户越来越多的时候,你的数据也会越来越多,而这些数据又可以反过来提高你的智力。

回到我们一开始想做的事情,比如我要识别你说的,这批数据其实就是可以提供给语音识别的训练数据。其实这里面是有一定道理的。一般来说,不是这个领域的人可能不是很清楚,就是有记录数据也没用。你有很多记录数据。如果不知道对应的文字是什么,其实是没有用的。

PW:这是一个聪明的方法。

林辉:对,通过这种游戏化和用户产品的方式,积累了大量带有文字标注的录音。我认为我们今天推出的这款产品已经是未来的基石。,我积累了大量这样标注的录音资料,相当于基本上涵盖了中国人所有可能的层次和阶段。

PW:你们有多少免费用户?

林辉:最新的数字是3600万。

PW:所以在过去的四年里,增加几千万的用户实际上可以积累很多数据。

林辉:对,非常多。这批数据的价值其实非常非常大,更别说语音识别了。仔细想想,这批数据几乎涵盖了所有地方。现在我们基本上覆盖了所有的省市。这些语料库,不管你是做语音识别还是语言学研究,都是很有用的。

当然,我们现在只是用它来做语音识别,因为它有文字标注。结合深度学习,我需要非常大的数据,加上深度模型,我们可以做一个非常准确的语音识别引擎。当然,这个语音识别引擎是专门为国人打造的。是最能听懂中国人说英语的,因为我们的数据都是中文的。

这其实很有趣。其他大公司,比如谷歌和苹果,也做英文语音识别,但不是针对中国人的。这是一个差异化。我们可以比他们做得更多。变得更深。谷歌不会专门为中国人做这件事,尤其是中国的英语学习者。我们也和谷歌比较,因为他们的语音识别功能是开放的。我们可以进行并排比较。直接拿来专访“流利说”首席科学家林辉:如何用机器学习帮助中国人说好英语,我们找一些我们知道正确答案的录音,然后让机器识别,看谁识别的更准确,做个准确率对比。

因此,我们将它与所有可能的外国公司进行了比较,包括像讯飞这样的国内公司。我们发现,我们在华人英语语音识别这件事情上,远远领先于世界上所有其他公司。这其实是今天能够做出一些别人在雅思流利度上没有的东西的基石。

流利说是在做一件从0到1的事情,我们真正把一个技术推给用户,推给产品,为他们做出改变。创业一年多后,我们再次聆听这些用户的录音。令我感到非常欣慰的是,一些长期使用它的用户的录音水平有了很大的提高。许多用户确实不同。我们有很多这样的例子。

PW:中间是个什么样的阶段?因为刚才你说技术上可能是获取语音及其标注的文本数据。中间可能做了什么样的规划,才能走到这一步?

林慧:我刚才说的是英语流利说解决的一个问题。它使用游戏化机制和社区方法。我们还有一个社区,让语言学习成为一件事情,让大家更愿意参与和发言。也就是说,说白了,80%的语言学习还是要靠实践。如果你不去实践这个东西,它就不是一种知识。这个东西你不去实践,你是无法掌握的。

如果我们让大家发言,通过排行榜,通过游戏化机制,通过社交机制让你发言,然后给你反馈,那么你只要多练习,自然就会提高。

当然,后来我们觉得发音只是语言的一部分,用户可能有很多需要整体系统提升语言能力的需求,这也是我们后来推出了一个叫“Know Your English”的产品的原因。

PW:Know Your English是个什么样的产品?

林辉:今年7月份就发布了,但是开发时间比较长。我们一开始想的是,通过这种碎片化的内容,比较轻量化。当然这也是我们的特色之一,就是说你的用户是因为这个进来的,流量是有的,但是其实很多用户其实都有这种诉求的,就是希望改进我的英语能力更系统,而不仅仅是练习发音。

这就是知道你存在的原因。不管你是什么水平,看懂你,先来给你打个等级,不管你的英语水平是一级、二级还是三级。

PW:那个级别是一个统一的标准,还是你自己定的?

林辉:我们对标的是欧洲标准,也就是严格匹配。我们现在大概分了七八个级别,每个级别对应欧洲的标准,比如A1、A2、B1、B2。我们为此做了一个对应表,这个做了严格对应。本课程帮助您提高英语的各个方面,而不仅仅是发音。

PW:所以其实从2012年到今年,你主要做的就是积累数据,加到这些具体的产品上。

林辉:对,整个上下文就是工具和社区,现在我们开始提供服务。它始于工具。

PW:工具和社区用于收集数据。

林辉:是的,我们在这个过程中收集了很多数据,技术其实也在不断发展。产品和商业模式也在进化,产品进化的路径是工具。我们先用工具切进去。人们来的时候,他们想练习发音和口语。进来了怎么绑?社区。如何实现?那就是服务,其实就是这个上下文。但从技术上来说,是从跟进到识别,再到这种除发音外全纬度的评价。

其实Know Your English还有一个我们的核心技术,就是所谓的自适应学习部分。相当于你可以认为前面的识别是听觉,评价也是听觉和感知,但是人工智能需要认知和决策。如果你来这个教,它一定能听懂你的意思,为什么叫听懂你的英语。懂你的英语不仅仅是能看懂你,还需要知道你知识点的不足,你对各种能力和技能的掌握程度,需要了解你的内容,内容可以做什么帮助你改进。

有了这些之后,它的另一个技能就是它的决策能力,教给你的方法最适合你英语流利说懂你英语靠谱吗,最能帮助你提高水平。这就是我们所说的自适应学习技术。它还使用了深度学习的一些进步。

英语流利说懂你英语靠谱吗

PW:你能简单谈谈这种改编是如何运作的以及它取得了什么成果吗?

林辉:在在线教育领域,其实自适应是比较流行的。大家都在说自适应。它本质上要解决的问题是千人千面,个性化教学,因材施教。每个人的学习路径都不一样,那么这个怎么办呢?自适应就是这样做的。构建知识图谱并将内容与学生相关联是一种常见的做法。其实也不难理解。一句话,缺什么,缺什么。我想知道我的内容补充了什么,我想知道你缺少什么,所以我给你什么内容。这是最简单的解释。它实际上比这个更复杂,但基本思想是这样的。弥补什么。

但是我们的自适应学习系统不做知识图谱。一个学英语的人,他会说英语,他不一定真的懂语法,他可能不知道什么是定冠词,什么是不定冠词,这个东西其实是不确定的。

还有一个更大的原因是,你有了这个知识体系之后,你还得把你的内容发上去,非常繁琐。就像你想象的那样,比如你有1000个知识点,你想有10000甚至100000个更详细的知识点,你就得把你所有的内容都跟这个匹配起来。这本教材的工作量要大得多。其实我们觉得这件事不太靠谱。

所以我们决定沿用之前的思路,即数据加深度学习。如果能有源源不断的数据进来,是不是可以结合深度学习技术来解决这个问题呢?其实大家仔细想想,知识点的作用是什么?它实际上解决了一个学生和内容挂钩的问题,缺什么补什么。

机器需要大量数据才能了解这种相关性。我认为这没问题。我们的产品推出了,用户也在使用,所以数据源源不断地进来。

这是什么数据?这个数据其实是我认为互联网产品最神奇的地方。比如谷歌的搜索数据其实是源源不断的,但是这个数据是非常有价值的,因为它来自于用户的点击。用户的点击行为可以教会机器用户喜欢什么,术语上我们称之为标签数据。

在我们的场景中,其实很有意思的说英语流利说懂你英语靠谱吗,我们这批数据也被标注了,是什么?学生答题数据。我们知道他答对了还是错了,学生答题的行为,答对了还是错了,这些数据就是你说的另一种形式的数据,另一种框架的数据。

而且我们也发现,随着产品的上线,用户数据越来越多,我们的预测也越来越准确,这个准确度怎么衡量呢?我们的人工智能可以预测学生的答案是对还是错。现在,例如,我的题库中有 10,000 个问题。你做完100道左右,我基本可以预测,准确率在90%以上。你现在的水平是对还是错。

我们已经看到,随着越来越多的数据来自我的用户,我的预测准确性也在上升,这意味着这种智能在不断发展。

PW:后来加入你们的语言学家 Lance Knowles 博士是什么人?

林辉:他和我们合作的一个原因是,他试用了流利说之后,觉得我们的配音是他用过的世界上最好的。他看到了我们的技术,非常想和我们合作。他现在是我们的顾问之一。我们将他的想法与我们的技术相结合,并希望充分利用理解您的英语的模型。其实现在用户使用后的感受是,一开始可能不习惯,但实际上慢慢发现确实好用。我认为效果是核心。

PW:你们还推出了一款名为“雅思流利说”的付费产品。这个产品背后的技术是什么?

林辉:雅思其实是顺着我们整个技术路线的自然产物。我们希望通过人工智能技术,让教育,比如语言学习,变得更有效率,提高效率。所以要想提高效率,首先要将学习过程数字化、量化。说到语言学习,把这种口语能力的评价数字化、量化是非常重要的。这是一个自然的技术焦点。

后面的自适应就是它的效率怎么优化,你的内容怎么安排,你做了数字化、量化之后怎么选择这个策略,相当于决策的过程。前面的语音评价和语音评价部分相当于感知部分。这整个技术的脉络是这样的。

当我们做好感悟,自然而然出来的产物就是雅思流利说。我们可以为雅思考试用户、考生提供一定的价值,帮助他们解决问题,就像刚才和你聊天一样。痛点是模型测试难,反馈难,周期长,成本高。我们使用这样的技术来解决这样的问题。

从技术角度来看,上下文其实和我们最初的想法是一致的。这是一种天然产品。前面说过,比如跟读积累的语音识别语料库,最能听懂中国人说英语的识别引擎是基石。在这上面做一些自然语言处理,自然语言理解技术,反馈一下。我们认为这部分非常有意义和有价值。

PW:能给我们介绍一下雅思考试的整个评审过程吗?

林辉:雅思口语考试是现在公认的比较客观、全面地衡量一个人英语水平的考试。这是一个真正的考验。当一个考生进来的时候,你面对的是一个真正的考官,真正的考官会问你问题,你按照他问的问题来回答。这是一个真实的语言交流过程,考查的是你使用语言的能力。

对于雅思考生来说,他做模拟其实很难,因为他需要一个真人,你需要一个有这种评分能力的老师。毕竟这样的老师少之又少。所以雅思流利说就是从这个角度出发的。我们提供这样的模型测试结果,给你一份评分报告。这个报告一是足够准确,二是可以给大家一些具体的建议和反馈。所以我们在做雅思的时候其实有流利说关注的几个技术指标。首先是得分的一致性。评分是否足够准确,与你在真正的雅思考试中获得的分数相同。

这是怎么做到的?这里我也觉得AI可以做得更好,就是AI更客观。人的主观在所难免,人的失误和失​​误在所难免。尤其是对于这种没有标准答案的考试。写作文的时候,满分还是比较主观的。如果你找人批改,虽然有一定的雅思评分标准,但是人批改的时候,难免会有一些主观性,会出现一些错误。

那么我们的AI与雅思考官评判的分数的一致性达到了95.6%,已经超过了雅思官方公布的这样一个一致性数字。这是我们认为机器可以做得更好的,它更客观,它不会受到你个人情绪波动的影响,它不会受到你状态的影响,

对于第二件,如前所述,评分是有用的,但还不够。考生肯定是要我提高分数,哪里有问题,这时候反馈技术就发挥了作用。反馈技术是根据我之前说的。我最能理解中国人的英语认知。我会转换你的声音,即使你说话不好,有口音什么的,也能准确转换成文字。基于此文本为您提供发音以外的反馈。

PW:在语义理解方面,也许机器理解你的意思。它如何将这个意义与主题结合起来?

林辉:这些是语义理解中的一些关键的东西。例如英语流利说懂你英语靠谱吗,我们今天的话题之一是谈论城市。如果你谈论一本书,那是题外话。也就是从语义上来说,AI首先会知道,你的问题是关于城市的,它能理解这个。这就是所谓的语义。我对语义的理解,我知道你的问题是关于城市的,我发现你的回答是,如果你在谈论书籍,这是题外话。

PW:现在做了Know Your English和IELTS Fluent这两个产品或服务,未来有什么计划?

林辉:至于后续,我觉得肯定有很大的想象空间。就像当时的流利说,我们以一个产品技术的形式,用一个工具切入,再后来,不管是直接切入服务,直接切入交易,还是讲一些东西,这样的例子比较多。但是我觉得我们的一个优势就是可以更好的把产品和技术结合起来,切入一个用户的痛点,解决用户的一些问题。

对于后者,肯定有很多种可能,比如雅思,我们有很多种实现方式。比如今天,如果全年50万雅思考生中有一半使用我们的备考,那背后的价值可想而知。

PW:现在有多少付费用户?

林慧:我们的雅思流利说今天刚开播,算不上。然而,Know Your English 于 7 月推出。我们不透露这方面的具体数字,但可以透露的是,增长速度非常好,每月增长30%。我们现在非常有信心,我们的商业模式非常健康,我们在这方面非常有信心,我们会在合适的时候公布这个数字。

关于作者: admin

热门文章