内容简介:当AlphaGO战胜了世界围棋冠军李世石之后,整个工业界都为之振奋,越来越多的学者意识到强化学习在人工智能领域是一个非常令人exciting的。
当AlphaGO战胜了世界围棋冠军李世石之后,整个工业界都为之振奋,越来越多的学者意识到强化学习在人工智能领域是一个非常令人exciting的。
什么是强化学习
强化学习的基本思想是通过最大化智能体(agent) 从环境中获得的累计奖赏值,以学习到完成目标的最优策略。 强调如何基于环境而行动,以取得最大化的预期利益, 即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。 强化学习解决的问题是,针对一个具体问题得到一个最优的决策,使得在该策略下获得的奖励最大。
我们知道拥有智能会有一些聪明的表现。例如像犬等一些动物,我们可能会认为是有一定智能的,我们可以训练一只幼犬听懂饲养员的指令。训练方法是:饲养员手里拿着食物,然后说“坐下”,当幼犬做出符合要求的动作时,就把食物给它。反复进行训练,大概半小时的时间,它就学会听见“坐下”的命令就坐下。这个过程就是动物的学习过程,它的智能就表现在它能在一定时间内发现如何适应环境,获得食物奖赏。
训练幼犬的过程有两个要素:
饲养员需要对幼犬发出指令,比如让它“坐着”,
饲养员手中有动物非常想要的东西,即奖赏。对狗来说,奖赏就是食物。
https://www.leiphone.com/news/201705/NlTc7oObBqh116Z5.html
在 github 上,一位叫Thomas Tracey的小哥,探讨了他在Udacity的Deep Reinforcement Learning Nanodegree的最终项目上所做的工作。
传统的强化学习方法,如 Q-Learning 或策略梯度,很难适应多智能体环境。一个问题是每个agent的 策略随着训练的进展而变化,并且从任何单个 agent的角度来看,环境变得非平稳,而这种方式无法通过agent自身策略的变化来解释。这会带来学习稳定性的挑战,并阻止直接使用过去的体验重放,这对于稳定深度 Q 学习至关重要。另一方面,当需要协调多个agent时,策略梯度方法通常表现出非常高的方差。或者,可以使用基于模型的策略优化,通过反向传播可以学习最优策略,但这需要一个可区分的世界动态模型和关于agent之间相互作用的假设。
这个项目的目标是训练两名强化学习agent打网球。和真正的网球一样,每个球员的目标都是保持球的运转。而且,当你有两个同样匹配的对手时,你往往会看到相当长的交换,球员在网上来回击球。
鉴于此环境的额外复杂性,深度 Q 网络( DQN )算法并不适合。最重要的是,我们需要一种算法,让网球运动员利用其全方位和动力。为此,我们需要探索一种称为基于策略的方法的不同类算法。 基于策略的方法的一些优点: 连续行动空间、随机策略、简单。
作者基于谷歌 deepmind提出的 DDPG 算法实现深度强化学习的连续控制, DDPG 可以被视为深度的延伸 Q-learning 连续任务。 该算法 使用深度函数逼近器的无模型,非策略 Actor-Critic 算法,可以学习高维,连续动作空间中的策略
作者的目标是利用强化学习训练多 agent 学习踢足球
github 地址:https://github.com/tommytracey/DeepRL-P3-Collaboration-Competition
了解更多关注:
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:- 网球循环赛算法剖析
- Krikey AR登陆Android开发多人网球迷你游戏
- 针对职业高尔夫和网球赛的 Predictive Cloud Computing 项目,第 7 部分: 大数据存储与分析 - IBM...
- 创建聊天机器人,第 3 部分: 使用认知(或人工智能)服务增强聊天机器人
- 协作机器人行业
- 开源机器人自学指南
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
Excel图表之道
刘万祥 / 电子工业出版社 / 2010年4月 / 59.00元
本书介绍作者在实践工作中总结出来的一套“杂志级商务图表沟通方法”,告诉读者如何设计和制作达到杂志级质量的、专业有效的商务图表,作者对诸如《商业周刊》、《经济学人》等全球顶尖商业杂志上的精彩图表案例进行分析,给出其基于Excel的实现方法,包括数据地图、动态图表、仪表板等众多高级图表技巧。 本书提供大量图表模板源文件,包括详细的制作步骤,提供网上下载。提供博客支持。 本书定位于中高级Ex......一起来看看 《Excel图表之道》 这本书的介绍吧!