QUANT[20]强化学习(Reinforcement Learning)学习笔记8

Reinforcement Learning：An Introduction NOTE[6]

强化学习是一种去理解和自动进行目标导向学习和决策的计算方法。它与其他计算方法不同之处在于它强调了AGENT与环境的直接交互学习，而不依赖于监督或完整的环境模型。在我们看来，强化学习是第一个认真处理在学习与环境的互动时产生的计算问题，以实现长期目标的第一个领域。

强化学习使用马尔可夫决策过程的正式框架来定义学习AGENT与其环境之间的交互作用，包括状态、动作和收益。这个框架用简单的方法来表示人工智能问题的基本特征。这些特征包括因果性、不确定性和不确定性，以及目标的存在性。

价值和价值函数的概念是我们在本书中所考虑的大多数强化学习方法的主要特征。我们认为，在政策空间中，价值函数对于有效搜索是非常重要的。价值函数的使用区分开了强化学习方法和在整个策略的标量评估指导下搜索策略空间的进化方法。