《Reinforcement Learning》读书笔记 2：多臂老虎机（Multi-armed Bandits）

《Reinforcement Learning: An Introduction》读书笔记 - 目录

Reinforcement Learning 和 Supervised Learning 的区别

evaluate vs instruct

也就是说，RL的对于每一个action的效果不是非黑即白的，而是在每一次的action之后都可能不一样的后果（feedback, reward）
- 非iid，基于不同环境和/或之前的 actions
- reward可能是随机的

定义问题（ k-armed bandit problem）

k种actions => k个reward $R$ 的平稳分布
目标
- $m a x E (\sum R_{t})$

一些概念

`exploitation vs exploration (EE)`

exploitation: greedy move
exploration: nongreedy trial

reward & value

the value of an action $a$ , denoted $q_{*} (a)$ , is the expected reward given that $a$

i.e. $q_{*} (a) = E [R_{t} | A_{t} = a]$
用经验分布近似估计：
- $Q_{t} (a) = \frac{\sum_{i = 1}^{t - 1} R_{i} \cdot 1_{A_{i} = a}}{\sum_{i = 1}^{t - 1} 1_{A_{i} = a}}$
- 迭代式（在执行某个 $a$ 后）： $Q_{t} (a) = Q_{t - 1} + \frac{1}{t} (R_{t} (a) - Q_{t - 1}) = Q_{t - 1} + α (t) (R_{t} (a) - Q_{t - 1})$
更广义的， $N e w = O l d + S t e p S i z e \cdot (T a r g e t - O l d)$
- 这里，StepSize可以是单调减的，常数(指数平滑), …

几种方法

$ε$ -greedy

算法
- 以 $p = 1 - ε$ 执行greedy action (exploitation)
- 以 $p = ε$ 执行nongreedy action (exploration)
优点
- 实现简单
- 效果不会太差，即使分布是非平稳的
缺点
- 通常收敛比较慢
- 单纯的 $ε$ -greedy收敛后执行最优action(greedy)的比例为 $1 - ε < 1$
优化点
- $ε$ 随时间减小
- 选一个大点的 $Q_{0} (a)$
  - encourage exploration，选择足够大，能保证state space都覆盖到
  - 即使非平稳也没问题，因为影响只是暂时的

UCB（Upper-Confidence-Bound）

算法
- $A_{t} = a r g m a x_{a} (Q_{t} (a) + c \sqrt{l n (t) / (N_{t} (a) + ϵ}))$
- $ϵ \to 0$ 或1
- $c$ 是平衡EE的参数（类比置信度）
缺点
- 适用范围没有 $ε$ -greedy广，比如非平稳分布

Gradient Bandit

算法
- 定义
  - $H_{t} (a)$ 为preference for action a
  - $π_{t} (a) = P_{t} (A_{t} = a) = s o f t m a x_{t} (H_{t} (a))$ ，非argmax
- 迭代
  - $H_{t + 1} (A_{t}) = H_{t} (A_{t}) + α (R_{t} - {\bar{R}}_{t}) (1 - π_{t} (A_{t}))$
  - $H_{t + 1} (a) = H_{t} (a) - α (R_{t} - {\bar{R}}_{t}) π_{t} (a), for all a \neq A_{t}$
- 推导
  - $E (R_{t}) = \sum_{x} π_{t} (x) q_{*} (x)$
  - $H_{t + 1} (a) = H_{t} (a) + α \frac{\partial E (R_{t})}{\partial H_{t} (a)} = \dots$
优点
- 通用思想，可以引申到后面的full RL问题中

其它

Bayesian methods(posterior sampling/Thompson sampling)

假设value服从某个（未知的）稳定分布 $f$
假设一个（确定的）先验分布 $f_{p r i}$ ，执行一系列action，根据结果，得到后验分布 $f_{p o s t}$ （收敛于 $f$ ）
e.g

如何比较（参数&算法）

learning curve
- x轴为参数，y轴为average sum of rewards (e.g of 1000 experiments)

其他点

associative search (contextual bandits)

就是包含不同situation (environment)的问题（但与former actions仍无关）

If actions are allowed to affect the next situation as well as the reward, then we have the full reinforcement learning problem.

相关文章：

猜你喜欢

相关资源

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode