谷歌大脑新研究:单一任务强化学习遇瓶颈?「灾难性遗忘」的锅!图灵奖得主Bengio参与

栏目: IT技术 · 发布时间: 4年前

内容简介:鱼羊 发自 凹非寺量子位 报道 | 公众号 QbitAI雅达利游戏,又被推上了强化学习基础问题研究的舞台。

鱼羊 发自 凹非寺

量子位 报道 | 公众号 QbitAI

雅达利游戏,又被推上了强化学习基础问题研究的舞台。

来自谷歌大脑的最新研究提出,强化学习虽好,效率却很低下,这是为啥呢?

——因为AI遭遇了「灾难性遗忘」!

所谓灾难性遗忘,是机器学习中一种常见的现象。在深度神经网络学习不同任务的时候,相关权重的快速变化会损害先前任务的表现。

而现在,这项图灵奖得主Bengio参与的研究证明,在街机学习环境(ALE)的单个任务中,AI也遇到了灾难性遗忘的问题。

研究人员还发现,在他们提出的Memento observation中,在原始智能体遭遇瓶颈的时候,换上一只相同架构的智能体接着训练,就能取得新的突破。

单一游戏中的「灾难性干扰」

在街机学习环境(Arcade Learning Environment,ALE)中,多任务研究通常基于一个假设:一项任务对应一个游戏,多任务学习对应多个游戏或不同的游戏模式。

研究人员对这一假设产生了质疑。

单一游戏中,是否存在复合的学习目标?也就是说,是否存在这样一种干扰,让AI觉得它既要蹲着又要往前跑?

来自谷歌大脑的研究团队挑选了「蒙特祖玛的复仇」作为研究场景。

「蒙特祖玛的复仇」被认为是雅达利游戏中最难的游戏之一,奖励稀疏,目标结构复杂。

谷歌大脑新研究:单一任务强化学习遇瓶颈?「灾难性遗忘」的锅!图灵奖得主Bengio参与

研究人员观察到,CTS模型计算的Rainbow智能体,会在6600分的时候到达瓶颈。更长时间的训练和更大的模型大小都不能有所突破。

谷歌大脑新研究:单一任务强化学习遇瓶颈?「灾难性遗忘」的锅!图灵奖得主Bengio参与

不过,只需从这个位置开始,换上一只具有相同架构的新智能体,就能突破到8000分的水平。

如此再重置一次,AI的最高分就来到了14500分。

谷歌大脑新研究:单一任务强化学习遇瓶颈?「灾难性遗忘」的锅!图灵奖得主Bengio参与

需要说明的是,在换上新智能体的时候,其权重设置与初始的智能体无关,学习进度和权重更新也不会影响到前一个智能体。

研究人员给这种现象起了一个名字,叫Memento observation。

谷歌大脑新研究:单一任务强化学习遇瓶颈?「灾难性遗忘」的锅!图灵奖得主Bengio参与

Memento observation表明,探索策略不是限制AI在这个游戏中得分的主要因素。

原因是,智能体无法在不降低第一阶段游戏性能的情况下,集成新阶段游戏的信息,和在新区域中学习值函数。

也就是说,在稀疏奖励信号环境中,通过新的奖励集成的知识,可能会干扰到过去掌握的策略。

谷歌大脑新研究:单一任务强化学习遇瓶颈?「灾难性遗忘」的锅!图灵奖得主Bengio参与

上图是整个训练过程中,对游戏的前五个环境进行采样的频率。

在训练早期(左列),因为尚未发现之后的环节,智能体总是在第一阶段进行独立训练。到了训练中期,智能体的训练开始结合上下文,这就可能会导致干扰。而到了后期,就只会在最后一个阶段对智能体进行训练,这就会导致灾难性遗忘。

并且,这种现象广泛适用。

谷歌大脑新研究:单一任务强化学习遇瓶颈?「灾难性遗忘」的锅!图灵奖得主Bengio参与

上面这张图中,每柱对应一个不同的游戏,其高度代表Rainbow Memento智能体相对于Rainbow基线增长的百分比。

在整个ALE中,Rainbow Memento智能体在75%的游戏中表现有所提升,其中性能提升的中位数是25%。

这项研究证明,在深度强化学习中,单个游戏中的AI无法持续学习,是因为存在「灾难性干扰」。

并且,这一发现还表明,先前对于「任务」构成的理解可能是存在误导的。研究人员认为,理清这些问题,将对强化学习的许多基础问题产生深远影响。

传送门

论文地址:https://arxiv.org/abs/2002.12499

GitHub:https://github.com/google-research/google-research/tree/master/memento


以上所述就是小编给大家介绍的《谷歌大脑新研究:单一任务强化学习遇瓶颈?「灾难性遗忘」的锅!图灵奖得主Bengio参与》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

程序员代码面试指南:IT名企算法与数据结构题目最优解

程序员代码面试指南:IT名企算法与数据结构题目最优解

左程云 / 电子工业出版社 / 2015-9 / 79.00元

这是一本程序员面试宝典!书中对IT名企代码面试各类题目的最优解进行了总结,并提供了相关代码实现。针对当前程序员面试缺乏权威题目汇总这一痛点,本书选取将近200道真实出现过的经典代码面试题,帮助广大程序员的面试准备做到万无一失。“刷”完本书后,你就是“题王”!__eol__本书采用题目+解答的方式组织内容,并把面试题类型相近或者解法相近的题目尽量放在一起,读者在学习本书时很容易看出面试题解法之间的联......一起来看看 《程序员代码面试指南:IT名企算法与数据结构题目最优解》 这本书的介绍吧!

XML 在线格式化
XML 在线格式化

在线 XML 格式化压缩工具

html转js在线工具
html转js在线工具

html转js在线工具

UNIX 时间戳转换
UNIX 时间戳转换

UNIX 时间戳转换