视频(中文翻译):http://i.youku.com/i/UNDM1MTU2OTc4OA==?spm=a2h0j.8191423.subscription_wrap.DT~A
ppt下载:http://www.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html

Lecture 01 对增强学习进行概述,并安排接下去的课程内容。

增强学习和监督学习哪里不同?
- 没有监督值,只有奖励值 (reward signal)
- 反馈延时,而不是马上得到
- 智能体的行动影响它接下来接收的数据

增强学习是一个序列决策的问题,决策目标是:选择行动以最大化未来总奖励(total future reward) 。“未来”意味着要有长远的打算,不局限于当前的行动产生的立即奖励。

以下是一张经典的智能体和环境的交互图:
深度增强学习David Silver(一)——介绍

历史(history)是观察(observation)、行动(action)、奖励(reward)的序列集合。状态是关于历史的函数。通过状态(state)来决定下一步会发生什么(比如智能体选择什么动作,环境给予什么奖励,怎么变化)。

Ht=O1,R1,A1,...,Ot,Rt,At
St=f(Ht)

状态分为三类,如下:

  • Environment State:环境用来选择下一个观察和奖励,智能体通常不可见,用Set表示
  • Agent State:智能体用来选择下一个动作,用Sat表示
  • Information State:包含所有历史有用的信息,也称作Markov State,该状态足以预测未来,用St表示

环境(environment)分为完全可观察和部分可观察,如下:

  • Fully:Ot=Sat=Set=St,这是一个MDP(Markov decision process)
  • Partially:SatSet,也称为POMDP(partially observable MDP)

智能体包括:

  • policy:智能体的行为(behavior)函数,也就是根据当前状态智能体要怎么做,分为决定性策略π(s)和随机策略π(a|s)
  • value function:预测未来奖励,体现了每个状态、行动的好坏,
  • model:智能体对环境的表示,智能体怎么理解环境,输出环境的下一个状态。

policy和value function的区别如下:
深度增强学习David Silver(一)——介绍深度增强学习David Silver(一)——介绍

序列决策中有两个基本问题:

  • 增强学习:
    • 环境部分未知
    • 智能体和环境交互
    • 智能体改进策略
  • planning:
    • 环境模型完全已知(有人告诉你这个游戏怎么玩)
    • 智能体根据这个模型计算,不需要交互
    • 智能体改进策略
    • 比如:搜索、推理

增强学习是一个试错的学习过程,不断寻找exploration(广度,希望遍历尽量多的可能)和exploitation(深度,希望效果尽量好)的平衡。由此引申出Prediction(给定一个policy,预测未来奖励)和Control(探索最优policy,最优化未来奖励),这个后面会讲到。

以下是后面几节课的安排:

  • Part I: Elementary Reinforcement Learning

    1. Introduction to RL
    2. Markov Decision Processes
    3. Planning by Dynamic Programming
    4. Model-Free Prediction
    5. Model-Free Control
  • Part II: Reinforcement Learning in Practice

    1. value Function Approximation
    2. Policy Gradient Methods
    3. Integrating Learning and Planning
    4. xploration and Exploitation
    5. Case study - RL in games

相关文章: