【强化学习入门】 task1 概括与基础

强化学习入门 task1 概括与基础

1. 1 什么是强化学习
1.2 强化学习应用
1.3 强化学习发展的原因
1.4 奖励函数
1.5 强化学习组成成分
1.6 实践

主要根据周博磊教授的教学视频进行学习整理

视频地址https://www.bilibili.com/video/BV1LE411G7Xj
课程资料
https://github.com/zhoubolei/introRL
课件
https://github.com/zhoubolei/introRL/blob/master/lecture1.pdf
作者介绍

课程目录

推荐书目

实验火箭Python、PyTorch

1. 1 什么是强化学习

强化学习（Reinforcement Learning, RL），又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题

通俗来讲就是使一个agent在一个复杂环境中去极大化获得奖励
【强化学习入门】 task1 概括与基础
强化学习主要由两部分组成，即agent和环境

Agent选择一个action用于环境，环境接受该动作后状态发生变化，同时产生一个强化信号(奖或惩)反馈给Agent，Agent根据强化信号和环境当前状态再选择下一个action，选择的原则是使受到正强化(奖)的概率增大。选择的动作不仅影响立即强化值，而且影响环境下一时刻的状态及最终的强化值
【强化学习入门】 task1 概括与基础
强化学习与监督学习对比

强化学习的数据是由时间关联的，而监督学习的数据是没有关联的
强化学习中学习者没有被告知要采取哪些行动，而是必须采取行动
强化学习通过尝试来发现哪些行为会带来最大的回报。
强化学习的奖励是延迟的，只有一系列动作完成后才能知道是不是有提升作用

强化学习特点
需要在环境中探索来获取对环境的理解
获得的奖励是延迟的
强化学习是时间十分重要，因为其数据是时间关联的
agent行为会影响其后面得到的数据，所以如何在获得能够使奖励稳定提升的数据是十分重要的

获得的奖励是延迟的-》比如下面这个游戏到了后面结果出来才能知道前面的动作是不是有用的