几句话总结一个算法之DQN

栏目: 编程工具 · 发布时间: 5年前

DQN利用深度学习对Q-learning的一个扩展，回顾上篇文章，Q-learning的核心在于Q(s,a)的建模。如果状态s非常复杂，很难通过一张表来存储所有的状态。
深度学习正好可以自动提取s的特征，所以我们只需要对Q(s,a)建立一个深度学习网络
但是s可能是一个极高维度的向量，a可能只低维度向量(如上下左右)，建模起来可能有点困难
解决的办法是，对每个动作a都建一个网络。因为对于每个网络的a输入的是个固定值，没有任何信息量可以忽略掉，问题就可以简化为对每个建立一个网络来表示Q(s)
更进一步简化，这些网络在特征提取层可以参数共享一起训练，在输出层则输出各自动作的期望奖励，做法类似于现在的多任务学习
与Q-learning原理相同，Q(s, a)表示了模型根据历史数据的预测奖励，而Q'(s,a)表示对当前行动的预测奖励。一个好的模型，Q(s,a) 和 Q'(s,a)应该尽量接近，用平方损失函数正好可以表示

其他一些trick：experience replay 和异步更新，做法都很简单，有需要可以去了解下

以上所述就是小编给大家介绍的《几句话总结一个算法之DQN》，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对码农网的支持！

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

Operating Systems

Remzi Arpaci-Dusseau、Andrea Arpaci-Dusseau / Arpaci-Dusseau Books / 2012-8-19 / USD 21.00

A book about modern operating systems. Topics are broken down into three major conceptual pieces: Virtualization, Concurrency, and Persistence. Includes all major components of modern systems includin......一起来看看《Operating Systems》这本书的介绍吧!

码农工具

CSS 压缩/解压工具

在线压缩/解压 CSS 代码

RGB转16进制工具

RGB HEX 互转工具