搜狗获全球口语翻译大赛冠军 多模型融合细节打磨成制胜法宝

栏目: 编程工具 · 发布时间: 6年前

内容简介:【TechWeb】11月7日,在2018IWSLT(International Workshop on Spoken Language Translation)全球顶级口语机器翻译评测大赛上,搜狗凭借BLEU(BLEU是机器翻译自动评价方法,其数值越大意味着越准确)值28.09的成绩夺得冠军,超过第二名1.6个BLEU。在如此重量级赛事中斩获冠军足以凸显搜狗在口语机器翻译领域的领先地位。IWSLT作为全球最具影响力的口语机器翻译评测比赛,今年是第15届,共有10支队伍参赛。除了全球领先的学校、科研机构,今

【TechWeb】11月7日,在2018IWSLT(International Workshop on Spoken Language Translation)全球顶级口语机器翻译评测大赛上,搜狗凭借BLEU(BLEU是机器翻译自动评价方法,其数值越大意味着越准确)值28.09的成绩夺得冠军,超过第二名1.6个BLEU。在如此重量级赛事中斩获冠军足以凸显搜狗在口语机器翻译领域的领先地位。

IWSLT作为全球最具影响力的口语机器翻译评测比赛,今年是第15届,共有10支队伍参赛。除了全球领先的学校、科研机构,今年也有包括美国APPTEK、国内科大讯飞、阿里巴巴在内的“大厂”参赛。

TechWeb近日和搜狗参赛核心成员进行了近距离沟通,从中或许可以窥见搜狗机器翻译能力快速突破的诀窍。

搜狗获全球口语翻译大赛冠军 多模型融合细节打磨成制胜法宝

两年两项领域夺冠 成机器翻译标杆

在机器翻译领域,这已不是搜狗第一次获得冠军。

在去年的2017WMT(Workshop on Machine Translation)机器翻译顶级评测大赛上,搜狗就获得中英和英中翻译双向冠军,其机器翻译的准确率和速度受到业界瞩目。

搜狗机器翻译负责人王宇光介绍,本届IWSLT2018评测比赛中,考评的是将英语演讲语音翻译成对应的德语文本,难度系数更高。

IWSLT2018大赛共分了2大赛道,其一是Baseline Model(基线模型赛道),这是业内最主流最实用的语音翻译应用技术。另一赛道是End-to-End(端到端赛道),为本届大赛新增设赛道。

baseline模型对应的语音翻译方案,包含语音识别、机器翻译两大模块,采用多步流水线设计,即语音信号先输入语音识别系统得到源语言的识别文本,然后再将识别文本送入机器翻译系统输出目标语言的对应译文。

End-to-End模型则是输入语音,基于深度神经网络模型直接输出译文,并不会产生源语言的识别中间结果。

搜狗参加的是baseline模型赛道比拼,并最终夺得冠军。

从比赛结果BLEU数据来看,搜狗的BLEU最高,达到28.09。第二名是科大讯飞BLEU26.47,相差1.6个BLEU。搜狗语音技术负责人陈伟表示,从BLEU上来看二者差距已经比较明显,这种差距从用户层面上已经是可感知程度。

新增赛道End-to-End模型赛道的最高BLEU仅为19.4,与baseline模型结果相差甚远,End-to-End模型离能实际商用解决用户翻译需求还有很大差距。

多模型融合 细节打磨成制胜法宝

王宇光介绍,IWSLT201大赛,搜狗共投入近17人的团队,耗时近3个月时间打磨整合声学模型、机器翻译、语音增强、语言模型、解码器等领域技术能力。

搜狗语音技术负责人陈伟表示,“这次IWSLT评测数据体系是真实场景下的,而且又涉及到跨语言(英德)的现象,检验了我们能力,也证明我们在不同语种之间的迁移能力。”

陈伟介绍,在baseline模型的语音识别、机器翻译两大模块方面,从技术实验上看,在语言识别上,目前搜狗和讯飞水平基本持平,在文本翻译上搜狗做的更好。但是,他也强调“做好语音翻译这件事,除了单拼语音识别、单拼翻译以外,主要还是拼细节。”

在IWSLT201大赛竞技中,陈伟透露,为了确保口语翻译准确率更好,无论是语音识别还是机器翻译,都采用了多个不同模型融合去做,包括不同的语料、时间点、数据、特征等。每个模型优势不同,多个模型做磨合,让多个专家一起做决策,这样能保证准确率有进一步的提升。仅语音识别方面,搜狗团队就用了用包括TDNN、BiLSTM、Deep-CNN在内的多个模型融合。

语音识别场景往往存在很多问题,如演讲者口语化现象、现场噪声问题,翻译方面有选词、一词多义问题。怎么去应对这些问题,很多是在细节上打磨。除了把语音识别和机器翻译做好,还需要解决语音翻译结合部分的工作,如语音顺顺滑、断句等等工作。

此外,搜狗已经向大众推出了翻译机、同传等产品,搜狗同传产品在网球公开赛、游泳世界杯等多场景下进行了实践使用。这些来源于实际产品的经验和用户反馈,也帮助搜狗语音翻译技术不断迭代突破。目前在噪音相对小的情景下,搜狗语音识别准确率可达95%,以5分制评价,机器翻译能维持在4分左右。在陈伟看来,这些都成为搜狗口语翻译冠军实力的注解。

加速语音翻译技术商业化落地

基于搜狗语音翻译实力,目前搜狗打造的同传、旅行翻译狗、录音翻译笔等产品已经落地多个场景,并不断迭代升级。

搜狗同传目前已支持过很多科技大会,具备了很强的科技属性。现在开始尝试在网球、游泳比赛、专业学术会议等领域做同传适配,未来将向更多领域拓展。

陈伟表示,尽管语音翻译技术已经有了突破性发展,但是和成熟的人工同传相比还有很大差距。预计到2020年左右,机器同传的水平可以达到一般水平速记的程度。目前搜狗同传希望能够更好地配合人、帮助人,并不是替代人。

此外,陈伟透露后续会有多款围绕语音翻译技术的硬件产品发布,搜狗在语音合成技术方面近期也会有新的产品发布。


以上所述就是小编给大家介绍的《搜狗获全球口语翻译大赛冠军 多模型融合细节打磨成制胜法宝》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

降维打击

降维打击

杨 健 / 北京时代华文书局 / 2016-10 / 68

“降维打击”出自中国科幻作家刘慈欣的小说《三体》,而笔者在这本书中试图把“降维打击”的思维引入到企业经营管理的实战中,总结出一套“降维打击”的商业理论。 按照笔者的理解,企业竞争力可以体现在若干个维度的累加上,具有高维度思维的企业,主动将竞争对手的某一核心维度的竞争力降为零,并跟对手在自己更具竞争优势的维度内进行竞争,从而实现以小博大、以弱灭强的商业竞争结果,这就是企业竞争中的“降维打击”。......一起来看看 《降维打击》 这本书的介绍吧!

RGB转16进制工具
RGB转16进制工具

RGB HEX 互转工具

HTML 编码/解码
HTML 编码/解码

HTML 编码/解码

MD5 加密
MD5 加密

MD5 加密工具