内容简介:资源 | DeepMind开源强化学习研究环境Control Suite
原标题:资源 | DeepMind开源强化学习研究环境Control Suite
选自GitHub
机器之心编译
参与:路雪、李泽南
DeepMind 最近开源的强化学习环境 Control Suite 相比 OpenAI Gym 拥有更多的环境,更易于阅读的代码文档,同时更加专注于持续控制任务。它基于 Python,由 MuJoCo 物理引擎支持,是一套强大的强化学习智能体性能评估基准。
图 1:基准环境。第一行:Acrobot、Ball-in-cup、Cart-pole、Cheetah、Finger、Fish、Hopper。第二行:Humanoid、Manipulator、Pendulum、Point-mass、Reacher、Swimmer、Walker。
DeepMind Control Suite 是一系列稳定、测试良好、易于使用和修改的持续控制任务。这些任务用 Python 编写,物理模型使用 MJCF 定义。标准化动作、观察和奖励结构使得基准简单,学习曲线易于解释。
-
工具链接:https://github.com/deepmind/dm_control
-
演示视频:https://v.qq.com/x/page/i0528t4od2l.html
控制物理世界是通用智能不可缺少的能力,也是先决条件。确实,通用智能唯一的例子就出现在掌控了世界数百万年的灵长类动物身上。
物理控制任务有很多共同特性,应该将它们与行为问题区别对待。不像棋盘游戏、语言和其他符号域(symbolic domain),物理控制任务本质上是状态、时间和动作持续的。它们的动态取决于二阶运动方程,底层状态由位置和速度变量组成,而状态导数是加速度变量。感官信号(即观察结果)通常携带很多有意义的物理单元,随着不同的时间尺度发生改变。
最近十年,强化学习技术在解决视频游戏等困难问题中进展迅速(Mnih, 2015)。街机游戏模式的学习环境(ALE, Bellemare et al. 2012)是这些进展的关键推动因素,提供一系列标准基准用于评估和对比学习算法。DeepMind Control Suite 提供了一套类似的标准基准用于持续控制问题。
OpenAI Gym(Brockman et al., 2016)目前包括的一套持续控制域事实上是持续强化学习中的基准(Duan et al., 2016; Henderson et al., 2017)。与之类似,DeepMind Control Suite 也是一套对持续强化学习算法进行基准测试的任务,同时后者存在一些显著的区别。DeepMind 只专注于持续控制任务,如分离具备类似单元(位置、速度、力等)的观察结果,而不是将其串联成一个向量。我们统一的奖励结构(见下方)提供可解释的学习曲线和整合的套件级性能度量。此外,我们强调使用统一 设计模式 编写的高质量、文档化代码,提供一个可读、透明、易于扩展的代码库。最后,该控件具备 Gym 中所有的域,而且还多出很多。
DeepMind Control Suite 工具包包括:
-
MuJoCo 物理引擎支持的 Python 强化学习环境集,见 suite 子目录。
-
为 MuJoCo 物理引擎提供 Python binding 的库。
安装和要求
按照以下步骤安装 dm_control:
1. 从 MuJoCo 网站的下载页面下载 MuJoCo Pro 1.50。先安装 MuJoCo Pro,再安装 dm_control,因为 dm_control 的安装脚本要基于 MuJoCo 的头文件生成 Python ctypes binding。默认情况下,dm_control 假设 MuJoCo Zip 压缩包可以提取出~/.mujoco/mjpro150。
2. 运行 pip install git+git://github.com/deepmind/dm_control.git (很快就会有 PyPI 包)或复制该库,运行 pip install /path/to/dm_control/,来安装 dm_control Python 包。安装时,dm_control 在~/.mujoco/mjpro150/include 中从第一步开始查找 MuJoCo 头文件,不过该路径可以配置 headers-dir 命令行参数。
3. 安装 MuJoCo 的许可密钥,运行 dm_control 时会用到。详见 MuJoCo 许可密钥页面(https://www.roboti.us/license.html)。默认情况下,dm_control 在~/.mujoco/mjkey.txt 中查找 MuJoCo 许可密钥文件。
4. 如果许可密钥(如 mjkey.txt)或 MuJoCo Pro 提供的共享库(如 libmujoco150.so 或 libmujoco150.dylib)未按照默认路径安装,那么分别使用 MJKEY_PATH 和 MJLIB_PATH 指定它们的位置。
针对 macOS Homebrew 用户的额外说明
1. 只要你使用的是 Homebrew 安装的 Python 解释器,那么上述 pip 指令应该可以正常工作。
2. 要想运行 OpenGL,请运行 brew install glfw,从 Homebrew 安装 glfw 包。
3. 运行前,需要先用 GLFW 库路径更新 DYLD_LIBRARY_PATH 环境变量。方式:运行 export DYLD_LIBRARY_PATH=$(brew --prefix)/lib:$DYLD_LIBRARY_PATH。
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:- 3D 环境训练智能体时代来临?Facebook 开源仿真 3D 环境平台 Habitat
- 深度强化学习中实验环境:开源平台框架汇总
- Linux 开源首个 VR 桌面环境项目 Safespaces
- 【译】生产环境下的Node.js——开源监控工具
- Apache Spark 2.4.4 发布, 开源集群计算环境
- DeepMind让AI组队踢足球学会“合作”,并开源训练环境
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
互联网产品运营:产品经理的10堂精英课
丁华、聂嵘海、王晶 / 电子工业出版社 / 2017-5 / 59
《互联网产品运营:产品经理的10堂精英课》共有10章,前9章分别从互联网产品运营的9个点入手,最后一章辅以案例,分析当下市场热门产品的运营模式。 第1章点明在运营产品之前需要经过缜密的策划,这样才能有明确的运营方向;第2章讲述产品运营的定位,有了准确的定位,运营才不会走偏;第3章描述用户运营,用户是一款产品的根本,没有用户,产品就是死的;第4章讲述内容运营的技巧,产品内容要怎么运营才能受到用......一起来看看 《互联网产品运营:产品经理的10堂精英课》 这本书的介绍吧!