NIPS 2018 强化学习比赛结果出炉，百度赢得NIPS 2018 AI 假肢挑战赛

栏目: 数据库 · 发布时间: 7年前

距 NIPS 2018 召开还有不到一个月的时间，NIPS 2018 的各种技术挑战赛也接近尾声。在上周结束的 2018人工智能假肢挑战赛（AI for Prosthetics Challenge）中，来自中国百度的技术团队一举击败全球的 400 多个参赛团队，以 9980 分的成绩夺得冠军，领先第二名高达 30 多分。

人工智能假肢挑战赛是由斯坦福大学神经生物实验室与 EPFL 联合举办，旨在通过将强化学习应用到人体腿部骨骼仿真模拟模型的训练，从而加快人体假肢领域的相关研究，并开创该领域的研究的新方法。

自今年 7 月份启动以来，来自全球 400 多技术团队都参与其中。其中既有上届冠军、由 “RNN之父”Juergen Schmidhuber 创立的 NNAISENSE，也有阿里巴巴、Yandex 等巨头。百度今年首次参加强化学习领域比赛，就在强手如云的团队里脱颖而出，一举夺得冠军，并领先第二名30多分。第二到五名分别被NNAISENSE，Yandex，阿里巴巴等获得。显而易见，百度在强化学习领域占据了明显的优势，冠军含金量颇高。

今年的比赛中，赛会组织者提供了一个人体骨骼-高仿模型，该模型是斯坦福国家医学康复研究中心研发的 Opensim 高仿模型，拥有人类腿部绝大多数真实骨骼、关节和肌肉的精细仿真。参赛者需要根据该模型中多达 100 个以上的状态，来决定模型肌肉的信号，然后控制该模型的肌体行走。

在去年的第一次挑战赛上，比赛规则围绕谁能让模型肌体行走速度最快。而今年则引入带有假肢的模型，同时模型的假肢不可控制，模型肌体行走的速度也有要求，并且还需要在第二轮比赛中按照事先未知的指定速度进行切换。

相较而下，今年的比赛难度再次增加。比如对模型肌体有效信息的判断上，由于实际状态空间和动作空间稠密并且非常大，导致基于强化学习的算法无法准确把握模型肌体的行走姿势；更进一步，由于规则要求不断切换速度，更增加了模型控制难度。

在此次比赛中，百度首先通过上千台机器的 CPU 集群来加速模拟环境，利用 ZMQ 机制进行通信，从而能够在 P40 上进行高效的模型训练。其次，利用Target Driven Deep Deterministic Policy Gradient (Target Driven DDPG)（DDPG），使得模型能够应对较大空间和连续动作空间的挑战，最终也使得一个单一模型能够学习多种速度和姿态。第三，在算法层面，通过 multi-head bootstrapping，能够更高效的对巨大的解空间进行探索（Exploration），同时还将旋转不变性等各类特征处理方式，以及不断实验累计的各类 reward shaping 方法应用其中。正是这些关键技术的综合应用，让百度能以 9980 的高分一举夺冠，有参赛者表示，这是一个他们难以相信的分数。

NIPS 2018 强化学习比赛结果出炉，百度赢得NIPS 2018 AI 假肢挑战赛