李宏毅强化学习1

Deep RL 概述

什么是强化学习

解决智能体（agent）在与环境（environment）的交互过程中通过学习策略以达成回报（reward）最大化或实现特定目标的问题
Actor/Policy
$Action=\pi(observation)$

应用

Alpha GO: 监督学习+强化学习
Chat Robot: 生成对话，并对生成的对话进行评估
Interactive Retrieval
flying Helicopter
Driving
Google Cuts Its Giant Electricity Bill With DeepMind Powered AI
Text generation
Playing video games: 最大化整个游戏过程中的累积期望reward

RL的难点

reward delay，有些action可可能在后期才会得到巨大的reward。前期表现一般或者带来负影响。
agent的action会影响后续数据的获取

outline

Alpha Go ：policy-based +value-based +model_based
李宏毅强化学习1

Policy-based Approach – learn an actor

三个步骤

step1：确定函数集，将神经网络作为actor。

神经网络的输入：机器观察表示为向量或矩阵
神经网络的输出：与神经元输出层关联的每个action(action的概率)

step2：

衡量actor的好坏， $\pi_{\theta}(s)$ , $\theta$ 表示网络参数，使用总回报reward的期望值来进行评估。 $R_{\theta}=\sum^T_{t=1}r_t$ ， $R_{\theta}$ 在相同的actor下，每次也不一样。
trajectory $\tau=\{{s_{1},a_{1},r_{1},s_{2},a_{2},r_{2},...,s_{T},a_{T},r_{T}}\}$ $R(\tau)=\sum^N_{n=1}r_n$
$\tau$ 代表过程，有很多种情况，难以穷举。当选择actor时，只有某一些 $\tau$ ，即游戏过程容易出现，过程出现的概率 $P(\tau|\theta)$ 。
$\overline{R_{\theta}}=\sum_{\tau} R(\tau)P(\tau|\theta)$
使用 $\pi_{\theta}$ 重复n次过程，获得 ${\{\tau^1,\tau^2,...,\tau^N}\}$ ，从 $P(\tau|\theta)$ 采样N次 $\tau$ ，即：
$\overline{R_{\theta}}=\sum_{\tau} R(\tau)P(\tau|\theta)\approx\frac{1}{N}\sum^N_{n=1}R(\tau^n)$

step3：选择最好的actor

Problem statement
$\theta^*=arg\,\max_{c_k}{\overline{R_\theta}}$
$\overline{R_\theta}=\sum_{\tau}R(\tau)p(\tau|\theta)$
Gradient Ascent
- start with $\theta^0$
- $\theta^1 \leftarrow \theta^0+\eta\nabla\overline{R}_{\theta^0}$
- $\theta^2\leftarrow \theta^1+\eta\nabla\overline{R}_{\theta^1}$
- …

$R(\tau)$ do not have to be differentiable,它甚至可以是一个黑盒
李宏毅强化学习1

t是某个时候，计算所有时间
李宏毅强化学习1
a出现几率小
b出现几率大
使用log，除以 $p$ 概率，这样就不会偏向出现几率高的action了。normalization。

如果R一直都是正，理想情况下是ok的，但是实际采样随机，这个时候我们希望R有正有负

减掉一个bias，让R有正有负，bias超参数，自己设定
李宏毅强化学习1