几句话总结一个算法之DQN

栏目: 编程工具 · 发布时间: 6年前

  • DQN利用深度学习对Q-learning的一个扩展,回顾上篇文章,Q-learning的核心在于Q(s,a)的建模。如果状态s非常复杂,很难通过一张表来存储所有的状态。

  • 深度学习正好可以自动提取s的特征,所以我们只需要对Q(s,a)建立一个深度学习网络

  • 但是s可能是一个极高维度的向量,a可能只低维度向量(如上下左右),建模起来可能有点困难

  • 解决的办法是,对每个动作a都建一个网络。因为对于每个网络的a输入的是个固定值,没有任何信息量可以忽略掉,问题就可以简化为对每个建立一个网络来表示Q(s)

  • 更进一步简化,这些网络在特征提取层可以参数共享一起训练,在输出层则输出各自动作的期望奖励,做法类似于现在的多任务学习

  • 与Q-learning原理相同,Q(s, a)表示了模型根据历史数据的预测奖励,而Q'(s,a)表示对当前行动的预测奖励。一个好的模型,Q(s,a) 和 Q'(s,a)应该尽量接近,用平方损失函数正好可以表示

  • 其他一些trick:experience replay 和 异步更新,做法都很简单,有需要可以去了解下


以上所述就是小编给大家介绍的《几句话总结一个算法之DQN》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

数据结构基础

数据结构基础

[美]Ellis Horowitz 霍罗维兹 / 朱仲涛 / 清华大学出版社 / 2009-3 / 49.00元

《数据结构基础(C语言版)(第2版)》是最经典数据结构教材的最新版本,国内外大多数的同类教材都是以《数据结构基础(C语言版)(第2版)》为蓝本编写而来的。《数据结构基础(C语言版)(第2版)》用C作为描述语言,全面而生动地介绍了数据结构的有关知识,如数组、栈、队列、链表、树和图,以及构成所有软件基础的排序散列技术。此外,《数据结构基础(C语言版)(第2版)》还介绍了各种高级或特殊数据结构,如优先级......一起来看看 《数据结构基础》 这本书的介绍吧!

JSON 在线解析
JSON 在线解析

在线 JSON 格式化工具

XML、JSON 在线转换
XML、JSON 在线转换

在线XML、JSON转换工具

RGB CMYK 转换工具
RGB CMYK 转换工具

RGB CMYK 互转工具