目录

相关知识

网络结构

应用场景

存在的问题


相关知识

DQN算法:

Dueling DQN:Q=V+A

优势函数(Advantage Function):

Dueling DQN:Q=V+A

网络结构

和DQN的不同是:在特征层和输出层之间的全连接层,分成了两部分,一部分用于近似state-value V(s),另一部分近似Advantage-Function A(s, a),求和(combine)得到最终的Q(s, a)。

Dueling DQN:Q=V+A

应用场景

如论文所描述,有些场景,环境大部分时候对Actions的响应不大,影响环境更多的是state-value V(s)。
这种分离的设计方式,直觉上,能让学习更加有针对性,注意力放到关联的变量上;当action space冗余时,存在相似的actions时,对网络的扰动很小,能够让学习更有效率。

存在的问题

我们期望的目标是:Dueling DQN:Q=V+A 

但网络本身只是把Q(s, a)分成了两部分,并不一定就是Q(s, a) = V(s) + A(s, a),如何才能体现这两部分呢?
尤其是不同action的A的差异优化的解决方法之一是Q(s, a) = (V(s) + c) + (A(s, a) - c):

Dueling DQN:Q=V+A

为A(s, a)又设计了一个baseline即其均值,这样能保证actions之间的相对Rank不变,不管整体V + A如何变化。 

相关文章: