github 项目 | 强化学习训练机器人打网球

栏目: 数据库 · 发布时间: 5年前

内容简介：当AlphaGO战胜了世界围棋冠军李世石之后，整个工业界都为之振奋，越来越多的学者意识到强化学习在人工智能领域是一个非常令人exciting的。

当AlphaGO战胜了世界围棋冠军李世石之后，整个工业界都为之振奋，越来越多的学者意识到强化学习在人工智能领域是一个非常令人exciting的。

什么是强化学习

强化学习的基本思想是通过最大化智能体（agent）从环境中获得的累计奖赏值，以学习到完成目标的最优策略。强调如何基于环境而行动，以取得最大化的预期利益，即有机体如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。强化学习解决的问题是，针对一个具体问题得到一个最优的决策，使得在该策略下获得的奖励最大。

我们知道拥有智能会有一些聪明的表现。例如像犬等一些动物，我们可能会认为是有一定智能的，我们可以训练一只幼犬听懂饲养员的指令。训练方法是：饲养员手里拿着食物，然后说“坐下”，当幼犬做出符合要求的动作时，就把食物给它。反复进行训练，大概半小时的时间，它就学会听见“坐下”的命令就坐下。这个过程就是动物的学习过程，它的智能就表现在它能在一定时间内发现如何适应环境，获得食物奖赏。

训练幼犬的过程有两个要素：

饲养员需要对幼犬发出指令，比如让它“坐着”，

饲养员手中有动物非常想要的东西，即奖赏。对狗来说，奖赏就是食物。

https://www.leiphone.com/news/201705/NlTc7oObBqh116Z5.html

github 项目 | 强化学习训练机器人打网球

在 github 上，一位叫Thomas Tracey的小哥，探讨了他在Udacity的Deep Reinforcement Learning Nanodegree的最终项目上所做的工作。

传统的强化学习方法，如 Q-Learning 或策略梯度，很难适应多智能体环境。一个问题是每个agent的策略随着训练的进展而变化，并且从任何单个 agent的角度来看，环境变得非平稳，而这种方式无法通过agent自身策略的变化来解释。这会带来学习稳定性的挑战，并阻止直接使用过去的体验重放，这对于稳定深度 Q 学习至关重要。另一方面，当需要协调多个agent时，策略梯度方法通常表现出非常高的方差。或者，可以使用基于模型的策略优化，通过反向传播可以学习最优策略，但这需要一个可区分的世界动态模型和关于agent之间相互作用的假设。

这个项目的目标是训练两名强化学习agent打网球。和真正的网球一样，每个球员的目标都是保持球的运转。而且，当你有两个同样匹配的对手时，你往往会看到相当长的交换，球员在网上来回击球。

鉴于此环境的额外复杂性，深度 Q 网络（ DQN ）算法并不适合。最重要的是，我们需要一种算法，让网球运动员利用其全方位和动力。为此，我们需要探索一种称为基于策略的方法的不同类算法。基于策略的方法的一些优点：连续行动空间、随机策略、简单。

作者基于谷歌 deepmind提出的 DDPG 算法实现深度强化学习的连续控制， DDPG 可以被视为深度的延伸 Q-learning 连续任务。该算法使用深度函数逼近器的无模型，非策略 Actor-Critic 算法，可以学习高维，连续动作空间中的策略

作者的目标是利用强化学习训练多 agent 学习踢足球

github 地址：https://github.com/tommytracey/DeepRL-P3-Collaboration-Competition

了解更多关注：

github 项目 | 强化学习训练机器人打网球