Deep RL 概述

视频链接:p1-2020 最新课程 (完整版) 强化学习
ppt链接:http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLDS18.html


什么是强化学习

解决智能体(agent)在与环境(environment)的交互过程中通过学习策略以达成回报(reward)最大化或实现特定目标的问题
Actor/Policy
Action=π(observation)Action=\pi(observation)


应用

  • Alpha GO: 监督学习+强化学习
  • Chat Robot: 生成对话,并对生成的对话进行评估
  • Interactive Retrieval
  • flying Helicopter
  • Driving
  • Google Cuts Its Giant Electricity Bill With DeepMind Powered AI
  • Text generation
  • Playing video games: 最大化整个游戏过程中的累积期望reward

RL的难点

  • reward delay,有些action可可能在后期才会得到巨大的reward。前期表现一般或者带来负影响。
  • agent的action会影响后续数据的获取

outline

Alpha Go :policy-based +value-based +model_based
李宏毅强化学习1


Policy-based Approach – learn an actor

三个步骤

step1:确定函数集,将神经网络作为actor。

  • 神经网络的输入:机器观察表示为向量或矩阵
  • 神经网络的输出:与神经元输出层关联的每个action(action的概率)

step2:

  • 衡量actor的好坏 ,πθ(s)\pi_{\theta}(s), θ\theta表示网络参数 ,使用总回报reward的期望值来进行评估。Rθ=t=1TrtR_{\theta}=\sum^T_{t=1}r_tRθR_{\theta} 在相同的actor下,每次也不一样。
    trajectory τ={s1,a1,r1,s2,a2,r2,...,sT,aT,rT}\tau=\{{s_{1},a_{1},r_{1},s_{2},a_{2},r_{2},...,s_{T},a_{T},r_{T}}\}R(τ)=n=1NrnR(\tau)=\sum^N_{n=1}r_n
    τ\tau代表过程,有很多种情况,难以穷举。当选择actor时,只有某一些τ\tau,即游戏过程容易出现,过程出现的概率P(τθ)P(\tau|\theta)
    Rθ=τR(τ)P(τθ)\overline{R_{\theta}}=\sum_{\tau} R(\tau)P(\tau|\theta)
    使用πθ\pi_{\theta}重复n次过程,获得{τ1,τ2,...,τN}{\{\tau^1,\tau^2,...,\tau^N}\},从P(τθ)P(\tau|\theta)采样N次τ\tau,即:
    Rθ=τR(τ)P(τθ)1Nn=1NR(τn)\overline{R_{\theta}}=\sum_{\tau} R(\tau)P(\tau|\theta)\approx\frac{1}{N}\sum^N_{n=1}R(\tau^n)

step3:选择最好的actor

  • Problem statement
    θ=argmaxckRθ\theta^*=arg\,\max_{c_k}{\overline{R_\theta}}
    Rθ=τR(τ)p(τθ)\overline{R_\theta}=\sum_{\tau}R(\tau)p(\tau|\theta)
  • Gradient Ascent
            - start with θ0\theta^0
            - θ1θ0+ηRθ0\theta^1 \leftarrow \theta^0+\eta\nabla\overline{R}_{\theta^0}
            - θ2θ1+ηRθ1\theta^2\leftarrow \theta^1+\eta\nabla\overline{R}_{\theta^1}
            - …

R(τ)R(\tau)do not have to be differentiable,它甚至可以是一个黑盒
李宏毅强化学习1
李宏毅强化学习1
李宏毅强化学习1

t是某个时候,计算所有时间
李宏毅强化学习1
a出现几率小
b出现几率大
使用log,除以pp概率,这样就不会偏向出现几率高的action了。normalization。
李宏毅强化学习1
如果R一直都是正,理想情况下是ok的,但是实际采样随机,这个时候我们希望R有正有负
李宏毅强化学习1
减掉一个bias,让R有正有负,bias超参数,自己设定
李宏毅强化学习1

相关文章:

  • 2021-10-17
  • 2021-12-21
  • 2021-04-26
  • 2021-10-14
  • 2021-08-06
  • 2021-09-26
  • 2021-07-03
  • 2021-06-02
猜你喜欢
  • 2021-11-19
  • 2021-08-15
  • 2021-08-27
  • 2021-12-07
  • 2022-12-23
  • 2021-05-09
  • 2021-08-18
相关资源
相似解决方案