机器翻译新突破:谷歌实现完全基于attention的翻译架构

栏目: 编程工具 · 发布时间: 7年前

内容简介:机器翻译新突破:谷歌实现完全基于attention的翻译架构

近两年来,机器翻译的突破让人目不暇接,从去年谷歌的颠覆性突破开始到一个月前 Facebook 的全新 CNN 翻译技术,人工智能的巴别塔正越建越高。近日,谷歌再次宣布又在机器翻译上更进了一步,实现了完全基于 attention 的 Transformer 机器翻译网络架构,并且还在 WMT 2014 的多种语言对的翻译任务上超越了之前 Facebook 的成绩,实现了新的最佳水平。机器之心对这篇研究论文进行了摘要介绍。

论文:Attention Is All You Need

论文链接:https://arxiv.org/abs/1706.03762

机器翻译新突破:谷歌实现完全基于attention的翻译架构

在编码器-解码器配置中,显性序列显性转导模型(dominant sequence transduction model)基于复杂的 RNN 或 CNN。表现最佳的模型也需通过注意力机制(attention mechanism)连接编码器和解码器。我们提出了一种新型的简单网络架构——Transformer,它完全基于注意力机制,彻底放弃了循环和卷积。两项机器翻译任务的实验表明,这些模型的翻译质量更优,同时更并行,所需训练时间也大大减少。我们的模型在 WMT 2014 英语转德语的翻译任务中取得了 BLEU 得分 28.4 的成绩,领先当前现有的最佳结果(包括集成模型)超过 2 个 BLEU 分值。WMT 2014 英语转法语翻译任务中,在 8 块 GPU 上训练了 3.5 天之后,我们的模型获得了新的单模型顶级 BLEU 得分 41.0,只是目前文献中最佳模型训练成本的一小部分。我们表明 Transformer 在其他任务上也泛化很好,把它成功应用到了有大量训练数据和有限训练数据的英语组别分析上。

机器翻译新突破:谷歌实现完全基于attention的翻译架构

图 1:转换器-模型架构

机器翻译新突破:谷歌实现完全基于attention的翻译架构

图 2:(左)可延展的 Dot-Product 注意,(右)Multi-Head 注意保护数并行运行的注意层

机器翻译新突破:谷歌实现完全基于attention的翻译架构

图 3:在 5、6 层编码器自注意中遵循长期依存关系的注意机制的例子。


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

人工智能产品经理——AI时代PM修炼手册

人工智能产品经理——AI时代PM修炼手册

张竞宇 / 电子工业出版社 / 2018-6 / 59

随着人工智能热潮的兴起,企业对人工智能领域产品经理的人才需求也开始井喷,人工智能产品经理成为顺应时代潮流的重要人力资源。实际上,人工智能确实给现有的产品和服务带来了全方位的升级,这也给产品经理从业人员提出了更高的要求,是关注人工智能产品的产品经理们面临的一次关键转型考验。 《人工智能产品经理——AI时代PM修炼手册》从知识体系、能力模型、沟通技巧等方面帮助大家系统地梳理了人工智能产品经理所必......一起来看看 《人工智能产品经理——AI时代PM修炼手册》 这本书的介绍吧!

HTML 压缩/解压工具
HTML 压缩/解压工具

在线压缩/解压 HTML 代码

在线进制转换器
在线进制转换器

各进制数互转换器

HEX CMYK 转换工具
HEX CMYK 转换工具

HEX CMYK 互转工具