向前、向后、横着走,双足机器人Cassie,靠深度强化学习学会了走路丨论文

栏目: 数据库 · 发布时间: 5年前

内容简介:深度强化学习,可以用来学走路了。Agility Robotics的双足机器人看,它可以正常的往前走。

郭一璞 发自 凹非寺

量子位 报道 | 公众号 QbitAI

深度强化学习,可以用来学走路了。

Agility Robotics的双足机器人 Cassie ,这个没有上半身的机器人,就靠着深度强化学习学会了更灵活的使用自己身体的唯二器官:左腿,和右腿。

看,它可以正常的往前走。

向前、向后、横着走,双足机器人Cassie,靠深度强化学习学会了走路丨论文

还能大步快走,差点就跑起来了。

向前、向后、横着走,双足机器人Cassie,靠深度强化学习学会了走路丨论文

作为一个传送带运动爱好者,万一踩到了传送带的边缘也不会两脚劈叉,而是稳稳的继续前行。

向前、向后、横着走,双足机器人Cassie,靠深度强化学习学会了走路丨论文

甚至,倒着走也一样稳。

向前、向后、横着走,双足机器人Cassie,靠深度强化学习学会了走路丨论文

或者学习一下螃蟹,横行霸道。

向前、向后、横着走,双足机器人Cassie,靠深度强化学习学会了走路丨论文

这种时候,不怀好意的人类就开始欺负它了,拿木棍戳它的小肚腩。

向前、向后、横着走,双足机器人Cassie,靠深度强化学习学会了走路丨论文

站的稳稳地,Cassie没有一点点要倒下的意思。

既然戳肚子正前方没有反应,那我们换个角度,戳肚子的侧面,大概是“腰子”的位置。

向前、向后、横着走,双足机器人Cassie,靠深度强化学习学会了走路丨论文

稍稍歪了一下,但影响不大,Cassie该怎么走还是怎么走。

肚子看来干扰不了,那就干扰脚底,放一块木板,绊倒它。

向前、向后、横着走,双足机器人Cassie,靠深度强化学习学会了走路丨论文

可惜如意算盘没能实现,Cassie一脚踩在木板上,稍微晃了晃,依然稳步前行,甚至还回踩了一脚。

学走路进行时

新的行走技能,要归功于加拿大不列颠哥伦比亚大学计算机系和俄勒冈州立大学动力机器人实验室两所机构。

让Cassie学会行走,需要用到 强化学习模仿学习(Imitation Learning)

强化学习解决马尔可夫决策过程( Markov Decision Process, MDP)的最优策略,需要用到 策略梯度算法 ;而模仿学习则需要解决参数策略问题。

之后,需要用到关键算法DASS来搞定数据集。每次连续设计迭代时重新定义奖励函数,用 确定性行动随机状态(Deterministic Action Stochastic State,DASS) 元组来表征策略。

向前、向后、横着走,双足机器人Cassie,靠深度强化学习学会了走路丨论文

之后,将DASS于强化学习、模仿学习结合在一起,为机器人设定策略。

现在需要在Cassie机器人上实验了。

向前、向后、横着走,双足机器人Cassie,靠深度强化学习学会了走路丨论文

Cassie双足机器人身高大约1米,体重31千克,两条腿上有复杂的传动机制,红色箭头都是主动关节,黄色的箭头都是被动关节。

向前、向后、横着走,双足机器人Cassie,靠深度强化学习学会了走路丨论文

需要在神经网络上进行参数化策略优化,这里用到了actor-critic算法和MuJoCo模拟器。

向前、向后、横着走,双足机器人Cassie,靠深度强化学习学会了走路丨论文

策略设计过程则是依靠四个基于追踪的策略的起始点。 DASS样本根据箭头的方向,从一个策略传递到下一个策略。

实际操作中,需要先训练几个初始策略,之后参考机器人的运动状态和需要达到的运动速度进行调整,这里只需要5~10k的小数据集就能实现变速行走策略。

最后,就可以让机器人跑起来了。Cassie机器人需要和计算机联网,操作过程中研究者们用到了Ubuntu系统和PyTorch框架来执行学习策略。

实验之后,可以看出使用更大的神经网络,就可以更快的产出更稳定的策略,比如图中的蓝色线条要明显优于红色和绿色。

向前、向后、横着走,双足机器人Cassie,靠深度强化学习学会了走路丨论文

传送门

最后,如果你需要了解更详细的步骤,可以阅读这项研究的论文。

论文:

Iterative Reinforcement Learning Based Design of Dynamic Locomotion Skills for Cassie

Zhaoming Xie, Patrick Clary, Jeremy Dao, Pedro Morais, Jonathan Hurst, Michiel van de Panne

https://arxiv.org/abs/1903.09537

— 完 —

小程序|get更多AI资讯与资源

加入社群

量子位AI社群开始招募啦,量子位社群分:AI讨论群、AI+行业群、AI技术群;

欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“微信群”,获取入群方式。(技术群与AI+行业群需经过审核,审核较严,敬请谅解)

向前、向后、横着走,双足机器人Cassie,靠深度强化学习学会了走路丨论文

量子位  QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !


以上所述就是小编给大家介绍的《向前、向后、横着走,双足机器人Cassie,靠深度强化学习学会了走路丨论文》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

信息简史

信息简史

[美] 詹姆斯·格雷克 / 高博 / 人民邮电出版社 / 2013-10 / 69.00元

人类与信息遭遇的历史由来已久。詹姆斯•格雷克笔下的这段历史出人意料地从非洲的鼓语讲起(第1章)。非洲土著部落在尚未直接跨越到移动电话之前,曾用鼓声来传递讯息,但他们是如何做到的呢?后续章节进而讲述了这段历史上几个影响深远的关键事件,包括文字的发明(第2章)、罗伯特•考德里的第一本英语词典(第3章)、查尔斯•巴贝奇的差分机与爱达•拜伦的程序(第4章)、沙普兄弟的信号塔与摩尔斯电码(第5章)。 ......一起来看看 《信息简史》 这本书的介绍吧!

RGB转16进制工具
RGB转16进制工具

RGB HEX 互转工具

在线进制转换器
在线进制转换器

各进制数互转换器

Markdown 在线编辑器
Markdown 在线编辑器

Markdown 在线编辑器