百度宣布AI同传最新突破,发布高质量低延迟即时机器翻译系统

栏目: 编程工具 · 发布时间: 6年前

近日,百度发布重磅消息称, 百度研发了具备预测能力和可控延迟的即时机器翻译系统,可实现两种语言之间的高质量、低延迟翻译。 这是自然语言处理方面的重大技术突破,将对机器即时笔译和口译的发展起到极大地推动作用。

百度宣布AI同传最新突破,发布高质量低延迟即时机器翻译系统

即时机器翻译系统是2016年百度 Deep Speech 2发布以来,又一项引发MIT 科技评论、IEEE Spectrum 等外媒瞩目的重大技术进展。IEEE Spectrum 认为,百度开发的这个新系统揭示了一种通过预测未来而保持稳定的翻译工具,可以与联合国会议期间提供同传服务的口译人员相媲美,让人们离软件巴别鱼又近了一步。还有媒体认为,百度推出新的翻译系统,是向谷歌发起了挑战。

百度宣布AI同传最新突破,发布高质量低延迟即时机器翻译系统

这项引发行业震动的技术,到底有何过人之处?

百度宣布AI同传最新突破,发布高质量低延迟即时机器翻译系统

机器同传利用语音识别技术自动识别演讲者的讲话内容,将语音转化为文字,然后调用机器翻译引擎,将文字翻译为目标语言,显示在大屏幕或者通过语音合成播放出来。 相比人类译员,机器最大的优势是不会因为疲倦而导致译出率下降,能将所有“听到”的句子全部翻译出来,这使得机器的“译出率”可以达到100%,远高于人类译员的60%-70%。同时,在价格上也占有优势。

百度宣布AI同传最新突破,发布高质量低延迟即时机器翻译系统

此次,百度联合语音技术、机器翻译技术,从语音识别、翻译质量、时延、融合领域知识等方面推出了“一揽子”解决方案。

在语音识别方面,区别于传统的上下文相关建模技术,百度提出了上下文无关音素组合的中英文混合建模单元,包含1749个上下文无关中文音节和1868个上下文无关英文音节。该方法具有泛化性能好、对噪声鲁棒、中英文混合识别等特点。

百度宣布AI同传最新突破,发布高质量低延迟即时机器翻译系统

在翻译质量方面,提出了“语音容错”的对抗训练翻译模型,根据语音识别模型常犯的错误,在训练数据中有针对性的加入噪声数据,使得模型在接受到错误的语音识别结果时,也能够在译文中纠正过来。比如,语音识别系统将“大堂”错误的识别为“大唐”,这一对噪声词将被自动收录到训练数据中,并将源语言句子“我们在酒店大堂见面吧”替换为“我们在酒店大唐见面吧”,而保持目标语言翻译不变“Let's meet at the lobby of the hotel”,同时将这两个中文句子用于训练,进而获得具有更强的容错能力模型。

为了降低时延提升翻译质量,人类译员通常对演讲内容进行合理预测,百度开发人员从人类译员身上获得启示,研发了 “wait-k words”模型,可以根据历史信息,直接预测翻译中目标语言词汇。

百度宣布AI同传最新突破,发布高质量低延迟即时机器翻译系统

该模型在翻译质量和翻译延迟之间做出了很好的平衡,用户可根据实际需求设定延迟时间(例如延迟1(k=1)词或延迟5(k=5)词)。比如,法语和西班牙语这种较为接近的语言,延迟可设置在比较低的水平;但是,对于英语和汉语这种差异较大的语言,以及英语和德语这种词序不同的语言,延迟应当设置为较高水平,以便于更好地应对差异。

在同声传译时,经常会遇到不同领域的专业知识,这就要求同传人员在短时间内吸收大量相关领域的内容,这对他们也是极大的挑战。基于此,百度模仿人类同传的准备过程,提出了快速融合领域知识策略。该策略依托百度海量的互联网大数据,训练得到的具有通用翻译能力的模型;当它接到某一个领域的同传翻译任务时,系统会收集该领域数据并在通用模型的基础上进行增强训练,得到相应领域的增强模型;最后对该领域术语库进行强制解码,使专业术语翻译得准确可靠,且提升翻译效率。

百度宣布AI同传最新突破,发布高质量低延迟即时机器翻译系统

虽然机器同传有了新的突破,但它与经验丰富的同传人员相比,依然存在一定差距。百度翻译技术负责人表示, 百度研发新系统的初衷是为了降低同传成本,让同传在不同领域构筑沟通桥梁,而非取代人类译员。


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

免费

免费

[美] 克里斯·安德森 / 蒋旭峰、冯斌、璩静 / 中信出版社 / 2009-9 / 39.00

在《免费:商业的未来 》这本书,克里斯·安德森认为,新型的“免费”并不是一种左口袋出、右口袋进的营销策略,而是一种把货物和服务的成本压低到零的新型卓越能力。在上世纪“免费”是一种强有力的推销手段,而在21世纪它已经成为一种全新的经济模式。 究竟什么是免费商业模式?根据克里斯·安德森的说法,这种新型的“免费”商业模式是一种建立在以电脑字节为基础上的经济学,而非过去建立在物理原子基础上的经济学。......一起来看看 《免费》 这本书的介绍吧!

JS 压缩/解压工具
JS 压缩/解压工具

在线压缩/解压 JS 代码

Base64 编码/解码
Base64 编码/解码

Base64 编码/解码

HEX CMYK 转换工具
HEX CMYK 转换工具

HEX CMYK 互转工具