视频(中文翻译):http://i.youku.com/i/UNDM1MTU2OTc4OA==?spm=a2h0j.8191423.subscription_wrap.DT~A
ppt下载:http://www.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html
Lecture 01 对增强学习进行概述,并安排接下去的课程内容。
增强学习和监督学习哪里不同?
- 没有监督值,只有奖励值 (reward signal)
- 反馈延时,而不是马上得到
- 智能体的行动影响它接下来接收的数据
增强学习是一个序列决策的问题,决策目标是:选择行动以最大化未来总奖励(total future reward) 。“未来”意味着要有长远的打算,不局限于当前的行动产生的立即奖励。
以下是一张经典的智能体和环境的交互图:
历史(history)是观察(observation)、行动(action)、奖励(reward)的序列集合。状态是关于历史的函数。通过状态(state)来决定下一步会发生什么(比如智能体选择什么动作,环境给予什么奖励,怎么变化)。
状态分为三类,如下:
- Environment State:环境用来选择下一个观察和奖励,智能体通常不可见,用
Set 表示 - Agent State:智能体用来选择下一个动作,用
Sat 表示 - Information State:包含所有历史有用的信息,也称作Markov State,该状态足以预测未来,用
St 表示
环境(environment)分为完全可观察和部分可观察,如下:
- Fully:
Ot=Sat=Set=St ,这是一个MDP(Markov decision process) - Partially:
Sat≠Set ,也称为POMDP(partially observable MDP)
智能体包括:
- policy:智能体的行为(behavior)函数,也就是根据当前状态智能体要怎么做,分为决定性策略
π(s) 和随机策略π(a|s) - value function:预测未来奖励,体现了每个状态、行动的好坏,
- model:智能体对环境的表示,智能体怎么理解环境,输出环境的下一个状态。
policy和value function的区别如下:
序列决策中有两个基本问题:
- 增强学习:
- 环境部分未知
- 智能体和环境交互
- 智能体改进策略
- planning:
- 环境模型完全已知(有人告诉你这个游戏怎么玩)
- 智能体根据这个模型计算,不需要交互
- 智能体改进策略
- 比如:搜索、推理
增强学习是一个试错的学习过程,不断寻找exploration(广度,希望遍历尽量多的可能)和exploitation(深度,希望效果尽量好)的平衡。由此引申出Prediction(给定一个policy,预测未来奖励)和Control(探索最优policy,最优化未来奖励),这个后面会讲到。
以下是后面几节课的安排:
-
Part I: Elementary Reinforcement Learning
- Introduction to RL
- Markov Decision Processes
- Planning by Dynamic Programming
- Model-Free Prediction
- Model-Free Control
-
Part II: Reinforcement Learning in Practice
- value Function Approximation
- Policy Gradient Methods
- Integrating Learning and Planning
- xploration and Exploitation
- Case study - RL in games