《Reinforcement Learning: An Introduction》 读书笔记 - 目录

Reinforcement Learning 和 Supervised Learning 的区别

evaluate vs instruct

  • 也就是说,RL的对于每一个action的效果不是非黑即白的,而是在每一次的action之后都可能不一样的后果(feedback, reward)
    • 非iid,基于不同环境 和/或 之前的 actions
    • reward可能是随机的

定义问题( k-armed bandit problem)

  • k种actions => k个reward R 的平稳分布
  • 目标
    • max E(Rt)

一些概念

exploitation vs exploration (EE)

  • exploitation: greedy move
  • exploration: nongreedy trial

reward & value

the value of an action a, denoted q(a), is the expected reward given that a

  • i.e. q(a)=E[Rt|At=a]
  • 用经验分布近似估计:
    • Qt(a)=i=1t1Ri1Ai=ai=1t11Ai=a
    • 迭代式(在执行某个a后):
      Qt(a)=Qt1+1t(Rt(a)Qt1)=Qt1+α(t)(Rt(a)Qt1)
  • 更广义的,New=Old+StepSize(TargetOld)
    • 这里,StepSize可以是单调减的,常数(指数平滑), …

几种方法

ε-greedy

  • 算法
    • p=1ε 执行greedy action (exploitation)
    • p=ε 执行nongreedy action (exploration)
  • 优点
    • 实现简单
    • 效果不会太差,即使分布是非平稳的
  • 缺点
    • 通常收敛比较慢
    • 单纯的ε-greedy收敛后执行最优action(greedy)的比例为1ε<1
  • 优化点
    • ε 随时间减小
    • 选一个大点的Q0(a)
      • encourage exploration,选择足够大,能保证state space都覆盖到
      • 即使非平稳也没问题,因为影响只是暂时的

UCB(Upper-Confidence-Bound)

  • 算法
    • At=argmaxa( Qt(a)+cln(t)/(Nt(a)+ϵ) )
    • ϵ0 或1
    • c是平衡EE的参数(类比置信度)
  • 缺点
    • 适用范围没有ε-greedy广,比如非平稳分布

Gradient Bandit

  • 算法
    • 定义
      • Ht(a)为preference for action a
      • πt(a)=Pt(At=a)=softmaxt(Ht(a))非argmax
    • 迭代
      • Ht+1(At)=Ht(At)+α(RtR¯t)(1πt(At))
      • Ht+1(a)=Ht(a)α(RtR¯t)πt(a), for all aAt
    • 推导
      • E(Rt)=xπt(x)q(x)
      • Ht+1(a)=Ht(a)+αE(Rt)Ht(a)=
  • 优点
    • 通用思想,可以引申到后面的full RL问题中

其它

Bayesian methods(posterior sampling/Thompson sampling)

  • 假设value服从某个(未知的)稳定分布f
  • 假设一个(确定的)先验分布fpri,执行一系列action,根据结果,得到后验分布fpost(收敛于f
  • e.g
    《Reinforcement Learning》 读书笔记 2:多臂老虎机(Multi-armed Bandits)

如何比较(参数&算法)

  • learning curve
    • x轴为参数,y轴为average sum of rewards (e.g of 1000 experiments)
      《Reinforcement Learning》 读书笔记 2:多臂老虎机(Multi-armed Bandits)

其他点

associative search (contextual bandits)


  • 就是包含不同situation (environment)的问题(但与former actions仍无关)

If actions are allowed to affect the next situation as well as the reward, then we have the full reinforcement learning problem.

相关文章: