强化学习——基础概念科普

本文的参考资料均来自飞桨PaddlePaddle的强化学习七日课程，这里仅做总结。

强化学习的核心思想：智能体agent在环境environment中学习，根据环境的状态state，执行动作action，并根据环境的反馈奖励reward来指导更好的动作。

两部分：agent 智能体、environment环境

三要素：state状态/ observation观察值、action动作、reward奖励

一个生动的例子来说明：

强化学习——基础概念科普

强化学习的应用：

1.小鸟游戏：小鸟作为agent，当前场景为state，然后进行action,得到reward。

强化学习——基础概念科普

2.游戏走迷宫：当只有到达目的地时，才获得1分的reward，体现了奖励的延时性。action为向上下左右走

强化学习——基础概念科普

3.个性化与推荐

强化学习——基础概念科普

4.股票：股票市场是一个长期收益的场景，和强化学习的延迟奖励不谋而合。

强化学习——基础概念科普

5.交通治理：控制交通灯的颜色，调节交通情况

强化学习——基础概念科普

6.分类

强化学习——基础概念科普