一条命通关，这个AI算法玩超级马里奥操作秀翻天丨视频+开源代码

栏目: 软件资讯 · 发布时间: 6年前

内容简介：把超级马里奥玩成下面这样，算什么水平？能流畅的行走在妖魔鬼怪之间

郭一璞发自北四环

量子位报道 | 公众号 QbitAI

把超级马里奥玩成下面这样，算什么水平？

能流畅的行走在妖魔鬼怪之间

一条命通关，这个AI算法玩超级马里奥操作秀翻天丨视频+开源代码

能掐准食人花出现的时机

一条命通关，这个AI算法玩超级马里奥操作秀翻天丨视频+开源代码

能灵巧的躲过烧火棍

一条命通关，这个AI算法玩超级马里奥操作秀翻天丨视频+开源代码

能克服各种变态的地形

一条命通关，这个AI算法玩超级马里奥操作秀翻天丨视频+开源代码

从1-1到7-1，只要一条命，就能全部通过，而且操作几乎没有迟疑，如行云流水一般。

不信的可以看完整视频：

别人玩得这么溜，你是不是只能被小乌龟、喷子弹的小怪物、上上下下的地形虐？

不过，这个玩游戏的不是人，是一只通过深度强化学习算法实现的AI。

异步优势演员评论家算法

这个算法已经开源，是2016年的论文《Asynchronous Methods for Deep Reinforcement Learning》中提到的算法的实现。

一条命通关，这个AI算法玩超级马里奥操作秀翻天丨视频+开源代码

异步一步Q-Learning：每个线程与自己的环境副本交互，在每一步中计算，用共享的渐变目标网络Q-Learning损失的梯度，就像DQN训练模型一样。

一条命通关，这个AI算法玩超级马里奥操作秀翻天丨视频+开源代码

异步多步Q-Learning：在正视图中通过明确的计算多步返回来运行，因为基于动量的方法反向传播来训练神经网络时，用正视图更容易一些。

一条命通关，这个AI算法玩超级马里奥操作秀翻天丨视频+开源代码

异步优势演员评论家算法：这是超级马里奥AI的核心。智能体中的两个部分，分别扮演演员和评论家，负责创造和监督。

和前面的异步多步Q-Learning一样，演员和评论家在正视图中运行，用相同的多步返回组合来更新策略和价值函数。

演员就像一个小孩子一样，会探索世界，做各种事情。

评论家则类似于前面小演员的爸爸妈妈，负责监督演员的举动，赞扬他做的好的地方，批评他做的不好的地方，告诉自己孩子：你和其他演员（别人家的孩子）差在哪儿了。

因此，演员希望一直能获得爸妈的赞扬，获得积极的反馈，就会根据爸妈的赞扬和批评不断修正自己的行为。

而对于 异步优势演员评论家算法 而言，则是为小演员提供了一所“学校”。如果小演员只在家里学习，可能学到的东西更片面，而且学习速度也比较慢。在异步优势演员评论家算法这所学校里，有“老师”和“同学”能让演员更快的学习，学到正确的知识。

游戏达人Viet Nguyen

最后，公布这个算法实现的是GitHub用户Viet Nguyen。

一条命通关，这个AI算法玩超级马里奥操作秀翻天丨视频+开源代码

他是一名AI和机器人方向的硕士，毕业于慕尼黑工业大学，主要研究自然语言处理和计算机视觉。

现在，他是德国手游公司Popcore的一名数据科学家。除了超级马里奥，他还研究过用Deep-Q-Learning训练AI玩Flappy Bird。

一条命通关，这个AI算法玩超级马里奥操作秀翻天丨视频+开源代码

传送门

最后，这个项目已经开源了，发布者公布了代码和模型，针对超级马里奥的每一关都单独训练了模型，在RTX 2080上大概一关费了6~10个小时。

开源代码

https://github.com/vietnguyen91/Super-mario-bros-A3C-pytorch

论文原文

Asynchronous Methods for Deep Reinforcement Learning

Volodymyr Mnih, Adrià Puigdomènech Badia, Mehdi Mirza, Alex Graves, Timothy P. Lillicrap, Tim Harley, David Silver, Koray Kavukcuoglu

https://arxiv.org/abs/1602.01783

— 完 —

小程序|全类别AI学习教程

一条命通关，这个AI算法玩超级马里奥操作秀翻天丨视频+开源代码

AI社群|与优秀的人交流

一条命通关，这个AI算法玩超级马里奥操作秀翻天丨视频+开源代码

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

编程珠玑

Jon Bentley / 黄倩、钱丽艳 / 人民邮电出版社 / 2008-10 / 39.00元

本书是计算机科学方面的经典名著。书的内容围绕程序设计人员面对的一系列实际问题展开。作者Jon Bentley 以其独有的洞察力和创造力，引导读者理解这些问题并学会解决方法，而这些正是程序员实际编程生涯中至关重要的。本书的特色是通过一些精心设计的有趣而又颇具指导意义的程序，对实用程序设计技巧及基本设计原则进行了透彻而睿智的描述，为复杂的编程问题提供了清晰而完备的解决思路。本书对各个层次的程序员都具有......一起来看看《编程珠玑》这本书的介绍吧!

码农工具

在线进制转换器

各进制数互转换器

XML、JSON 在线转换

在线XML、JSON转换工具