【发布时间】:2019-05-07 16:27:34
【问题描述】:
据我了解,强化学习会从行动中获得回报。
但是,在玩电子游戏时,大部分步骤(例如:街头霸王)都没有奖励(奖励 == 0),最终我们得到了奖励(例如:玩家获胜,奖励 = 1),这么多动作,机器怎么知道哪一个是赢得这场比赛的关键?
【问题讨论】:
-
动作序列是预先计算好的,有很多不同的方式,最流行的是基于动态规划的Q-learning
标签: machine-learning reinforcement-learning