内容简介:雷锋网 AI 科技评论按:在生产和经济高度全球化的今天,机器翻译(Machine Translation)是人类面对外语时最渴望拥有的工具,也是神经网络带来最大变革的人工智能问题之一。从最早的基于规则的机器翻译,到基于概率的机器翻译,再到现在的基于神经网络的机器翻译,机器学习和语言学的研究人员们一起经历了几十年的历程。如今的机器翻译系统虽然还算不上尽善尽美,但以谷歌翻译、百度翻译为代表的,使用神经机器翻译技术的大规模开放使用的翻译系统,已经可以时不时地给出一些流畅、明了的双语互译结果了。当然了,在神经网络/
雷锋网 AI 科技评论按:在生产和经济高度全球化的今天,机器翻译(Machine Translation)是人类面对外语时最渴望拥有的工具,也是神经网络带来最大变革的人工智能问题之一。
从最早的基于规则的机器翻译,到基于概率的机器翻译,再到现在的基于神经网络的机器翻译,机器学习和语言学的研究人员们一起经历了几十年的历程。如今的机器翻译系统虽然还算不上尽善尽美,但以谷歌翻译、百度翻译为代表的,使用神经机器翻译技术的大规模开放使用的翻译系统,已经可以时不时地给出一些流畅、明了的双语互译结果了。
当然了,在神经网络/深度学习的冲击之下,我们也不免看到这样的调侃:“团队里每开除一个语言学家,翻译模型的准确率就可以再提升一点。”在越来越大的语料库、越来越多的模型设计和训练技巧的帮助下,来自语言学领域的指导带来的提升远不如机器学习领域的新技术成果、甚至已有技术成果的好的实现带来的提升大。雷锋网 AI 科技评论的读者们相信也有这样的感觉。
机器翻译,尤其是神经机器翻译(neural machine translation,NMT)也是清华大学自然语言处理与社会人文计算实验室重点关注的研究课题之一。为了便于自己研究,也给这个课题的其他研究人员提供从那靠和指引,清华大学自然语言处理与社会人文计算实验室机器翻译小组在 GitHub 上维护着一份神经机器翻译论文清单,包含了这个领域内他们认为起到重要作用的研究论文。
列表中的神经机器翻译论文划分为了模型架构、注意力机制、开放词库、训练目标、解码、低语言资源翻译、先验知识集成、文档级别翻译、鲁棒性、可视化和可解释性、语言学解释、公平性和多样性、效率、语音翻译、多模态、集成和重新 排序 、预训练、领域适应、质量估计、以人为中心的神经机器翻译、单词翻译及双语专用语翻译、诗歌翻译等主题,内容十分全面细致。除此之外,他们也列出了 10 篇必读论文。
这 10 篇必读论文是:
-
Peter E. Brown, Stephen A. Della Pietra, Vincent J. Della Pietra, and Robert L. Mercer. 1993. The Mathematics of Statistical Machine Translation: Parameter Estimation. Computational Linguistics. (Citation: 4,965)
-
Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. 2002. BLEU: a Method for Automatic Evaluation of Machine Translation. In Proceedings of ACL 2002. (Citation: 8,507)
-
Philipp Koehn, Franz J. Och, and Daniel Marcu. 2003. Statistical Phrase-Based Translation. In Proceedings of NAACL 2003. (Citation: 3,514)
-
Franz Josef Och. 2003. Minimum Error Rate Training in Statistical Machine Translation. In Proceedings of ACL 2003. (Citation: 2,982)
-
David Chiang. 2007. Hierarchical Phrase-Based Translation. Computational Linguistics. (Citation: 1,192)
-
Ilya Sutskever, Oriol Vinyals, and Quoc V. Le. 2014. Sequence to Sequence Learning with Neural Networks. In Proceedings of NIPS 2014. (Citation: 5,428)
-
Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. 2015. Neural Machine Translation by Jointly Learning to Align and Translate. In Proceedings of ICLR 2015. (Citation: 5,572)
-
Diederik P. Kingma, Jimmy Ba. 2015. Adam: A Method for Stochastic Optimization. In Proceedings of ICLR 2015. (Citation: 16,572)
-
Rico Sennrich, Barry Haddow, and Alexandra Birch. 2016. Neural Machine Translation of Rare Words with Subword Units. In Proceedings of ACL 2016. (Citation: 789)
-
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. 2017. Attention is All You Need. In Proceedings of NIPS 2017. (Citation: 1,047)
论文列表具体内容请见: https://github.com/THUNLP-MT/MT-Reading-List
另外,在清华大学自然语言处理与社会人文计算实验室机器翻译小组的 GitHub 页面还可以看到他们的开源神经机器翻译 工具 包 THUMT ( https://github.com/THUNLP-MT/THUMT )。
祝各位阅读论文愉快。
雷锋网 (公众号:雷锋网) AI 科技评论报道。
雷锋网原创文章,未经授权禁止转载。详情见 转载须知 。
以上所述就是小编给大家介绍的《和清华大学自然语言处理与社会人文计算实验室一起读机器翻译论文》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!
猜你喜欢:- 从技术到人才,清华-中国工程院知识智能联合实验室发布「2018自然语言处理研究报告」
- Ceph实验室:第四课:Ceph监控
- Ceph实验室:第四课:Ceph监控
- 2018Android实验室CV培训总结
- 复旦NLP实验室NLP上手教程
- Ceph实验室:第三课:Ceph服务管理
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
高性能网站建设指南
Steve Souders / 刘彦博 / 电子工业出版社 / 2008年 / 35.00元
本书结合Web 2.0以来Web开发领域的最新形势和特点,介绍了网站性能问题的现状、产生的原因,以及改善或解决性能问题的原则、技术技巧和最佳实践。重点关注网页的行为特征,阐释优化Ajax、CSS、JavaScript、Flash和图片处理等要素的技术,全面涵盖浏览器端性能问题的方方面面。在《高性能网站建设指南》中,作者给出了14条具体的优化原则,每一条原则都配以范例佐证,并提供了在线支持。《高性能......一起来看看 《高性能网站建设指南》 这本书的介绍吧!