奖励价值计算：Q-Learning答案

【问题标题】：Reward value calculation: Q-Learning奖励价值计算：Q-Learning
【发布时间】：2018-01-31 06:55:13
【问题描述】：

我目前正在为我正在进行的 Q-Learning 优化奖励值。所以现在我考虑计算特定奖励值的两个值。由于这是与工作相关的，我无法指定我考虑的变量名称。奖励采用以下形式：reward = a + b 其中a 取值来自list: [10, 20, 40, 60, 80] 和b 可以是范围从0 to infinity 即b ε [0,∞) 的任何值。尽管 b 的值不会很大，但它可以取范围内的任何值。

所以情况是这样的：如果 b 类似于b=1300 和a=80，则reward = 1380 的值a 的优先级被b 所取代。有没有办法可以制定奖励，使得 a 和 b 的值具有相同的优先级，例如在计算奖励时都具有 50% 的值？

【问题讨论】：

标签： python mathematical-optimization reinforcement-learning q-learning reward-system

【解决方案1】：

我推荐的一种可以解决您的问题的技术是regularize a 和 b 的 Q 值。有很多方法可以做到这一点，但我认为 L1 或 L2 正则化 应该可以很好地解决您的问题。

简而言之，L2 正则化是一个计算权重平方和的数学方程。

上图来自chioka.in。

【讨论】：

但是你能帮我举个例子吗？比如，最初我对特定数据点的值是 0。然后对于相同的数据点，发现奖励值具有 a=80 和 @987654325 @（只是一个例子）。那么在这种情况下我将如何规范 Q 值呢？只是我在这里没有弄清楚。