本文的参考资料均来自飞桨PaddlePaddle的强化学习七日课程,这里仅做总结。

强化学习的核心思想:智能体agent在环境environment中学习,根据环境的状态state,执行动作action,并根据环境的反馈奖励reward来指导更好的动作。

两部分:agent 智能体、environment环境

三要素:state状态/ observation观察值、action动作、reward奖励

一个生动的例子来说明:

强化学习——基础概念科普

强化学习的应用

1.小鸟游戏:小鸟作为agent,当前场景为state,然后进行action,得到reward。

强化学习——基础概念科普

2.游戏走迷宫:当只有到达目的地时,才获得1分的reward,体现了奖励的延时性。action为向上下左右走

强化学习——基础概念科普

3.个性化与推荐

强化学习——基础概念科普

4.股票:股票市场是一个长期收益的场景,和强化学习的延迟奖励不谋而合。

强化学习——基础概念科普

5.交通治理:控制交通灯的颜色,调节交通情况

强化学习——基础概念科普

6.分类

强化学习——基础概念科普

 

 

相关文章: