搜狗获全球口语翻译大赛冠军 多模型融合细节打磨成制胜法宝

栏目: 编程工具 · 发布时间: 5年前

内容简介:【TechWeb】11月7日,在2018IWSLT(International Workshop on Spoken Language Translation)全球顶级口语机器翻译评测大赛上,搜狗凭借BLEU(BLEU是机器翻译自动评价方法,其数值越大意味着越准确)值28.09的成绩夺得冠军,超过第二名1.6个BLEU。在如此重量级赛事中斩获冠军足以凸显搜狗在口语机器翻译领域的领先地位。IWSLT作为全球最具影响力的口语机器翻译评测比赛,今年是第15届,共有10支队伍参赛。除了全球领先的学校、科研机构,今

【TechWeb】11月7日,在2018IWSLT(International Workshop on Spoken Language Translation)全球顶级口语机器翻译评测大赛上,搜狗凭借BLEU(BLEU是机器翻译自动评价方法,其数值越大意味着越准确)值28.09的成绩夺得冠军,超过第二名1.6个BLEU。在如此重量级赛事中斩获冠军足以凸显搜狗在口语机器翻译领域的领先地位。

IWSLT作为全球最具影响力的口语机器翻译评测比赛,今年是第15届,共有10支队伍参赛。除了全球领先的学校、科研机构,今年也有包括美国APPTEK、国内科大讯飞、阿里巴巴在内的“大厂”参赛。

TechWeb近日和搜狗参赛核心成员进行了近距离沟通,从中或许可以窥见搜狗机器翻译能力快速突破的诀窍。

搜狗获全球口语翻译大赛冠军 多模型融合细节打磨成制胜法宝

两年两项领域夺冠 成机器翻译标杆

在机器翻译领域,这已不是搜狗第一次获得冠军。

在去年的2017WMT(Workshop on Machine Translation)机器翻译顶级评测大赛上,搜狗就获得中英和英中翻译双向冠军,其机器翻译的准确率和速度受到业界瞩目。

搜狗机器翻译负责人王宇光介绍,本届IWSLT2018评测比赛中,考评的是将英语演讲语音翻译成对应的德语文本,难度系数更高。

IWSLT2018大赛共分了2大赛道,其一是Baseline Model(基线模型赛道),这是业内最主流最实用的语音翻译应用技术。另一赛道是End-to-End(端到端赛道),为本届大赛新增设赛道。

baseline模型对应的语音翻译方案,包含语音识别、机器翻译两大模块,采用多步流水线设计,即语音信号先输入语音识别系统得到源语言的识别文本,然后再将识别文本送入机器翻译系统输出目标语言的对应译文。

End-to-End模型则是输入语音,基于深度神经网络模型直接输出译文,并不会产生源语言的识别中间结果。

搜狗参加的是baseline模型赛道比拼,并最终夺得冠军。

从比赛结果BLEU数据来看,搜狗的BLEU最高,达到28.09。第二名是科大讯飞BLEU26.47,相差1.6个BLEU。搜狗语音技术负责人陈伟表示,从BLEU上来看二者差距已经比较明显,这种差距从用户层面上已经是可感知程度。

新增赛道End-to-End模型赛道的最高BLEU仅为19.4,与baseline模型结果相差甚远,End-to-End模型离能实际商用解决用户翻译需求还有很大差距。

多模型融合 细节打磨成制胜法宝

王宇光介绍,IWSLT201大赛,搜狗共投入近17人的团队,耗时近3个月时间打磨整合声学模型、机器翻译、语音增强、语言模型、解码器等领域技术能力。

搜狗语音技术负责人陈伟表示,“这次IWSLT评测数据体系是真实场景下的,而且又涉及到跨语言(英德)的现象,检验了我们能力,也证明我们在不同语种之间的迁移能力。”

陈伟介绍,在baseline模型的语音识别、机器翻译两大模块方面,从技术实验上看,在语言识别上,目前搜狗和讯飞水平基本持平,在文本翻译上搜狗做的更好。但是,他也强调“做好语音翻译这件事,除了单拼语音识别、单拼翻译以外,主要还是拼细节。”

在IWSLT201大赛竞技中,陈伟透露,为了确保口语翻译准确率更好,无论是语音识别还是机器翻译,都采用了多个不同模型融合去做,包括不同的语料、时间点、数据、特征等。每个模型优势不同,多个模型做磨合,让多个专家一起做决策,这样能保证准确率有进一步的提升。仅语音识别方面,搜狗团队就用了用包括TDNN、BiLSTM、Deep-CNN在内的多个模型融合。

语音识别场景往往存在很多问题,如演讲者口语化现象、现场噪声问题,翻译方面有选词、一词多义问题。怎么去应对这些问题,很多是在细节上打磨。除了把语音识别和机器翻译做好,还需要解决语音翻译结合部分的工作,如语音顺顺滑、断句等等工作。

此外,搜狗已经向大众推出了翻译机、同传等产品,搜狗同传产品在网球公开赛、游泳世界杯等多场景下进行了实践使用。这些来源于实际产品的经验和用户反馈,也帮助搜狗语音翻译技术不断迭代突破。目前在噪音相对小的情景下,搜狗语音识别准确率可达95%,以5分制评价,机器翻译能维持在4分左右。在陈伟看来,这些都成为搜狗口语翻译冠军实力的注解。

加速语音翻译技术商业化落地

基于搜狗语音翻译实力,目前搜狗打造的同传、旅行翻译狗、录音翻译笔等产品已经落地多个场景,并不断迭代升级。

搜狗同传目前已支持过很多科技大会,具备了很强的科技属性。现在开始尝试在网球、游泳比赛、专业学术会议等领域做同传适配,未来将向更多领域拓展。

陈伟表示,尽管语音翻译技术已经有了突破性发展,但是和成熟的人工同传相比还有很大差距。预计到2020年左右,机器同传的水平可以达到一般水平速记的程度。目前搜狗同传希望能够更好地配合人、帮助人,并不是替代人。

此外,陈伟透露后续会有多款围绕语音翻译技术的硬件产品发布,搜狗在语音合成技术方面近期也会有新的产品发布。


以上所述就是小编给大家介绍的《搜狗获全球口语翻译大赛冠军 多模型融合细节打磨成制胜法宝》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

智能

智能

[法]弗雷德里克·马特尔 / 君瑞图、左玉冰 / 商务印书馆 / 2015-8 / 59.90

揭示数字化主流大趋势的最新权威论著 《主流》作者的最新力作!与法国秋季新版同步上市! 面对数字化时代的到来,美国、欧盟、中国、俄罗斯、印度、巴西、古巴、伊朗、南非、韩国、新加坡、肯尼亚、墨西哥、日本等世界各国各地区正在如何应对? 在国际地缘政治格局下如何把握数字化主流的大趋势? 谷歌、苹果、脸书、亚马逊、阿里巴巴、腾讯、中兴、华为等大家熟知的网络巨头接受了作者的采访。作者的......一起来看看 《智能》 这本书的介绍吧!

RGB转16进制工具
RGB转16进制工具

RGB HEX 互转工具

Markdown 在线编辑器
Markdown 在线编辑器

Markdown 在线编辑器