【问题标题】:Reward value calculation: Q-Learning奖励价值计算:Q-Learning
【发布时间】:2018-01-31 06:55:13
【问题描述】:

我目前正在为我正在进行的 Q-Learning 优化奖励值。所以现在我考虑计算特定奖励值的两个值。由于这是与工作相关的,我无法指定我考虑的变量名称。奖励采用以下形式:reward = a + b 其中a 取值来自list: [10, 20, 40, 60, 80]b 可以是范围从0 to infinityb ε [0,∞) 的任何值。尽管 b 的值不会很大,但它可以取范围内的任何值。

所以情况是这样的:如果 b 类似于b=1300a=80,则reward = 1380 的值a 的优先级被b 所取代。有没有办法可以制定奖励,使得 a 和 b 的值具有相同的优先级,例如在计算奖励时都具有 50% 的值?

【问题讨论】:

    标签: python mathematical-optimization reinforcement-learning q-learning reward-system


    【解决方案1】:

    我推荐的一种可以解决您的问题的技术是regularize a 和 b 的 Q 值。有很多方法可以做到这一点,但我认为 L1 或 L2 正则化 应该可以很好地解决您的问题。

    简而言之,L2 正则化是一个计算权重平方和的数学方程。

    上图来自chioka.in

    【讨论】:

    • 但是你能帮我举个例子吗?比如,最初我对特定数据点的值是 0。然后对于相同的数据点,发现奖励值具有 a=80 和 @987654325 @(只是一个例子)。那么在这种情况下我将如何规范 Q 值呢?只是我在这里没有弄清楚。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2012-10-20
    • 1970-01-01
    • 1970-01-01
    • 2020-05-16
    • 2012-07-29
    相关资源
    最近更新 更多