强化学习——代理如何知道选择哪个动作？答案

【问题标题】：Reinforcement Learning - How does an Agent know which action to pick?强化学习——代理如何知道选择哪个动作？
【发布时间】：2016-04-23 15:30:23
【问题描述】：

我正在尝试理解 Q-Learning

基本更新公式：

Q(st, at) += a[rt+1, + d.max(Q(st+1, a)) - Q(st,at)]

我了解公式及其作用，但我的问题是：

代理如何知道选择 Q(st, at)？

我知道代理遵循一些策略 π，但是你首先如何创建这个策略？

目前我有：

但是，这并不能真正解决很多问题，您仍然会陷入局部最小值/最大值。

所以，为了圆满结束，我的主要问题是：

对于一无所知并使用无模型算法的代理，您如何生成初始策略，以便它知道要采取的行动？

【问题讨论】：

【解决方案1】：

该更新公式以增量方式计算每个状态下每个操作的预期值。贪婪的策略总是选择价值最高的行动。当您已经了解了这些价值观时，这是最好的策略。学习过程中最常用的策略是 ε-greedy 策略，它选择概率为 1-ε 的最高值动作，以及概率为 ε 的随机动作。

【讨论】：

感谢您的澄清。我有点像这样的东西已经实现了，但我很担心我错过了一些巨大的东西！
即使是 Google 的玩 Atari 的 AI 也使用带有 ε-greedy 策略的强化学习。在学习的过程中，它会在前一百万帧中逐渐将 ε 从 1.0 降低到 0.1。