Dueling DQN：Q=V+A

网络结构

和DQN的不同是：在特征层和输出层之间的全连接层，分成了两部分，一部分用于近似state-value V(s)，另一部分近似Advantage-Function A(s, a)，求和(combine)得到最终的Q(s, a)。

Dueling DQN：Q=V+A

应用场景

如论文所描述，有些场景，环境大部分时候对Actions的响应不大，影响环境更多的是state-value V(s)。
这种分离的设计方式，直觉上，能让学习更加有针对性，注意力放到关联的变量上；当action space冗余时，存在相似的actions时，对网络的扰动很小，能够让学习更有效率。

存在的问题

我们期望的目标是： Dueling DQN：Q=V+A

但网络本身只是把Q(s, a)分成了两部分，并不一定就是Q(s, a) = V(s) + A(s, a),如何才能体现这两部分呢？
尤其是不同action的A的差异优化的解决方法之一是Q(s, a) = (V(s) + c) + (A(s, a) - c)：

Dueling DQN：Q=V+A

为A(s, a)又设计了一个baseline即其均值，这样能保证actions之间的相对Rank不变，不管整体V + A如何变化。

相关知识

网络结构

应用场景

存在的问题