深度增强学习David Silver（一）——介绍

视频（中文翻译）：http://i.youku.com/i/UNDM1MTU2OTc4OA==?spm=a2h0j.8191423.subscription_wrap.DT~A
ppt下载：http://www.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html

Lecture 01 对增强学习进行概述，并安排接下去的课程内容。

增强学习和监督学习哪里不同？
- 没有监督值，只有奖励值（reward signal）
- 反馈延时，而不是马上得到
- 智能体的行动影响它接下来接收的数据

增强学习是一个序列决策的问题，决策目标是：选择行动以最大化未来总奖励（total future reward） 。“未来”意味着要有长远的打算，不局限于当前的行动产生的立即奖励。

以下是一张经典的智能体和环境的交互图：
深度增强学习David Silver（一）——介绍

历史（history）是观察（observation）、行动（action）、奖励（reward）的序列集合。状态是关于历史的函数。通过状态（state）来决定下一步会发生什么（比如智能体选择什么动作，环境给予什么奖励，怎么变化）。

Ht=O1,R1,A1,...,Ot,Rt,At
St=f(Ht)
状态分为三类，如下：

Environment State：环境用来选择下一个观察和奖励，智能体通常不可见，用Set表示
Agent State：智能体用来选择下一个动作，用Sat表示
Information State：包含所有历史有用的信息，也称作Markov State，该状态足以预测未来，用St表示

环境（environment）分为完全可观察和部分可观察，如下：

Fully：Ot=Sat=Set=St，这是一个MDP（Markov decision process）
Partially：Sat≠Set，也称为POMDP（partially observable MDP）

智能体包括：

policy：智能体的行为（behavior）函数，也就是根据当前状态智能体要怎么做，分为决定性策略π(s)和随机策略π(a|s)
value function：预测未来奖励，体现了每个状态、行动的好坏，
model：智能体对环境的表示，智能体怎么理解环境，输出环境的下一个状态。

policy和value function的区别如下：
深度增强学习David Silver（一）——介绍

序列决策中有两个基本问题：

增强学习：
- 环境部分未知
- 智能体和环境交互
- 智能体改进策略
planning：
- 环境模型完全已知（有人告诉你这个游戏怎么玩）
- 智能体根据这个模型计算，不需要交互
- 智能体改进策略
- 比如：搜索、推理

增强学习是一个试错的学习过程，不断寻找exploration（广度，希望遍历尽量多的可能）和exploitation（深度，希望效果尽量好）的平衡。由此引申出Prediction（给定一个policy，预测未来奖励）和Control（探索最优policy，最优化未来奖励），这个后面会讲到。

以下是后面几节课的安排：

Part I: Elementary Reinforcement Learning
1. Introduction to RL
2. Markov Decision Processes
3. Planning by Dynamic Programming
4. Model-Free Prediction
5. Model-Free Control
Part II: Reinforcement Learning in Practice
1. value Function Approximation
2. Policy Gradient Methods
3. Integrating Learning and Planning
4. xploration and Exploitation
5. Case study - RL in games