P2Proximal Policy Optimization (PPO)

importance sampling:强化学习 by 李宏毅(个人记录向)

On-policy -> Off-policy
Gradient for update:
强化学习 by 李宏毅(个人记录向)

强化学习 by 李宏毅(个人记录向)
强化学习 by 李宏毅(个人记录向)

*KL divergence(KL距离) 常用来衡量两个概率分布的距离

E(st,at)πθ

Q-learning

critic 评价action的效果
Monte-Carlo(MC) based approach
Temporal-difference(TD) approach

Vπ(st)=Vπ(st+1)+rt

强化学习 by 李宏毅(个人记录向)
*mc td分别代表什么

Target Network
强化学习 by 李宏毅(个人记录向)


Exploration Epsilon Greedy


Replay Buffer
减少与环境做互动的时间


Typical Q-learning Algorithm
强化学习 by 李宏毅(个人记录向)

Tips of Q-Learning

Double DQN
Q-Value总是被高估,因为target总是被设得太高

强化学习 by 李宏毅(个人记录向)

Dueling DQN
修改了网络的架构,分为V+A = Q


Prioritized Reply
强化学习 by 李宏毅(个人记录向)


Multi-step
强化学习 by 李宏毅(个人记录向)


Q-Learning for Continuous Actions
Q-Learning不容易处理连续的行为,如自动驾驶,机器人行动
Using gradient ascent to solve the optimization problem
强化学习 by 李宏毅(个人记录向)


policy-based(ppo)
value-based(Q-learning)


Asynchronous Advantage Actor-Critic

Review Policy Gradient

R¯θ1Nn=1Nt=1Tn(t=tTnγttrtnb)logpθ(atn|stn)

γttrtnbrtn+Vπ(st+1n)


Actor-Critic
强化学习 by 李宏毅(个人记录向)
强化学习 by 李宏毅(个人记录向)

Pathwise Derivative Policy Gradient

强化学习 by 李宏毅(个人记录向)

强化学习 by 李宏毅(个人记录向)

Sparse Reward

agent多数情况下,无法得到reward

Reward Shaping:

ICM = instrinsic curiosity module 鼓励冒险
强化学习 by 李宏毅(个人记录向)
根据atst,Network1预测st+1与真正的st+1差距,即采取某action,无法预测接下来的结果那么鼓励该操作
提取需要的特征,通过Network2仍然得到正确at,说明过滤掉是无用的信息

Curriculum Learning

Reverse Curriculum Generation根据得分反推
Hierarchical RL分级强化学习


Imitation Learning

Behavior Cloning

  • 存在局限性,无法收集极端情况下的数据
  • 学习无用的行为

Inverse RL
强化学习 by 李宏毅(个人记录向)
IRL训练专家的数据,得到正确的Reward Funciton;转而,RL利用Reward Funciton得到optimal acto,类似于GAN。


应用:自驾车

相关文章: