强化学习-智能体与环境交互过程2

强化学习的过程是agent与环境不断交互的过程，从环境得到反馈，然后来改变自己的行动。
强化学习-智能体与环境交互过程2
智能体首先接受环境的状态S0

智能体在S0的环境下采取行动A0

环境收到智能体的行动后从S0 变化到S1

环境对智能体的行为做出回报reward（可正可负，表示奖励或惩罚），R1

智能体收到奖励后对环境采取行动A1
强化学习-智能体与环境交互过程2
环境状态接收到动作A1后由状态S1变化到S2，并且给予奖励R2

智能体与环境交互的过程为
S0 A0
R1 S1 A1
R2 S2 A2
R3 S3 A3
R4…持续下去

目标为最大化期望累计奖励reward也就是将所有到达目标的reward的期望加起来的最大值。
强化学习-智能体与环境交互过程2