github 项目 | 强化学习训练机器人打网球

栏目: 数据库 · 发布时间: 5年前

内容简介:当AlphaGO战胜了世界围棋冠军李世石之后,整个工业界都为之振奋,越来越多的学者意识到强化学习在人工智能领域是一个非常令人exciting的。

当AlphaGO战胜了世界围棋冠军李世石之后,整个工业界都为之振奋,越来越多的学者意识到强化学习在人工智能领域是一个非常令人exciting的。

什么是强化学习

强化学习的基本思想是通过最大化智能体(agent) 从环境中获得的累计奖赏值,以学习到完成目标的最优策略。 强调如何基于环境而行动,以取得最大化的预期利益, 即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。 强化学习解决的问题是,针对一个具体问题得到一个最优的决策,使得在该策略下获得的奖励最大。

我们知道拥有智能会有一些聪明的表现。例如像犬等一些动物,我们可能会认为是有一定智能的,我们可以训练一只幼犬听懂饲养员的指令。训练方法是:饲养员手里拿着食物,然后说“坐下”,当幼犬做出符合要求的动作时,就把食物给它。反复进行训练,大概半小时的时间,它就学会听见“坐下”的命令就坐下。这个过程就是动物的学习过程,它的智能就表现在它能在一定时间内发现如何适应环境,获得食物奖赏。

训练幼犬的过程有两个要素:

饲养员需要对幼犬发出指令,比如让它“坐着”,

饲养员手中有动物非常想要的东西,即奖赏。对狗来说,奖赏就是食物。

https://www.leiphone.com/news/201705/NlTc7oObBqh116Z5.html

github 项目 | 强化学习训练机器人打网球

在 github 上,一位叫Thomas Tracey的小哥,探讨了他在Udacity的Deep Reinforcement Learning Nanodegree的最终项目上所做的工作。

传统的强化学习方法,如 Q-Learning 或策略梯度,很难适应多智能体环境。一个问题是每个agent的 策略随着训练的进展而变化,并且从任何单个 agent的角度来看,环境变得非平稳,而这种方式无法通过agent自身策略的变化来解释。这会带来学习稳定性的挑战,并阻止直接使用过去的体验重放,这对于稳定深度 Q 学习至关重要。另一方面,当需要协调多个agent时,策略梯度方法通常表现出非常高的方差。或者,可以使用基于模型的策略优化,通过反向传播可以学习最优策略,但这需要一个可区分的世界动态模型和关于agent之间相互作用的假设。

这个项目的目标是训练两名强化学习agent打网球。和真正的网球一样,每个球员的目标都是保持球的运转。而且,当你有两个同样匹配的对手时,你往往会看到相当长的交换,球员在网上来回击球。

鉴于此环境的额外复杂性,深度 Q 网络( DQN )算法并不适合。最重要的是,我们需要一种算法,让网球运动员利用其全方位和动力。为此,我们需要探索一种称为基于策略的方法的不同类算法。 基于策略的方法的一些优点: 连续行动空间、随机策略、简单。

作者基于谷歌 deepmind提出的 DDPG 算法实现深度强化学习的连续控制, DDPG 可以被视为深度的延伸 Q-learning 连续任务。 该算法 使用深度函数逼近器的无模型,非策略 Actor-Critic 算法,可以学习高维,连续动作空间中的策略

作者的目标是利用强化学习训练多 agent 学习踢足球

github 地址:https://github.com/tommytracey/DeepRL-P3-Collaboration-Competition

了解更多关注:

github 项目 | 强化学习训练机器人打网球


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

The Definitive Guide to MongoDB

The Definitive Guide to MongoDB

Peter Membrey、Wouter Thielen / Apress / 2010-08-26 / USD 44.99

MongoDB, a cross-platform NoSQL database, is the fastest-growing new database in the world. MongoDB provides a rich document orientated structure with dynamic queries that you’ll recognize from RDMBS ......一起来看看 《The Definitive Guide to MongoDB》 这本书的介绍吧!

JSON 在线解析
JSON 在线解析

在线 JSON 格式化工具

随机密码生成器
随机密码生成器

多种字符组合密码

RGB CMYK 转换工具
RGB CMYK 转换工具

RGB CMYK 互转工具