本文的参考资料均来自飞桨PaddlePaddle的强化学习七日课程,这里仅做总结。
强化学习的核心思想:智能体agent在环境environment中学习,根据环境的状态state,执行动作action,并根据环境的反馈奖励reward来指导更好的动作。
两部分:agent 智能体、environment环境
三要素:state状态/ observation观察值、action动作、reward奖励
一个生动的例子来说明:
强化学习的应用:
1.小鸟游戏:小鸟作为agent,当前场景为state,然后进行action,得到reward。
2.游戏走迷宫:当只有到达目的地时,才获得1分的reward,体现了奖励的延时性。action为向上下左右走
3.个性化与推荐
4.股票:股票市场是一个长期收益的场景,和强化学习的延迟奖励不谋而合。
5.交通治理:控制交通灯的颜色,调节交通情况
6.分类