【发布时间】:2018-01-31 06:55:13
【问题描述】:
我目前正在为我正在进行的 Q-Learning 优化奖励值。所以现在我考虑计算特定奖励值的两个值。由于这是与工作相关的,我无法指定我考虑的变量名称。奖励采用以下形式:reward = a + b 其中a 取值来自list: [10, 20, 40, 60, 80] 和b 可以是范围从0 to infinity 即b ε [0,∞) 的任何值。尽管 b 的值不会很大,但它可以取范围内的任何值。
所以情况是这样的:如果 b 类似于b=1300 和a=80,则reward = 1380 的值a 的优先级被b 所取代。有没有办法可以制定奖励,使得 a 和 b 的值具有相同的优先级,例如在计算奖励时都具有 50% 的值?
【问题讨论】:
标签: python mathematical-optimization reinforcement-learning q-learning reward-system