RL

model-free model-based
Q-learning Q-learning
Sarsa Sarsa
Policy Gradients Policy Gradients

**model-based 多建了一个学习到的虚拟环境,通过想象判断不同动作的结果。**eg.AlphaGo


policy-based value-based
输出下一步采取各种行动的概率(每种动作都有可能被选中) 根据最高价值选择动作
用概率分布在连续的动作中选择特定的动作 ×
policy gradients Q-learning、Sarsa

Actor-Critic是两者的结合。actor基于概率做出动作,critic对动作给出动作价值。


Monte-Cralo update Temporal-Difference update
用于阶段性任务 连续学习
Monte-Carlo Learning、基础版Policy radients Q-Learning、Sarsa、升级版Policy gradients

On-Policy Off-Policy
Sarsa Q-Learning
Sarsa(λ) DQN

Actor-Critic

actor–>policy gradient在连续动作中选择合适的动作

critic–>Q-learning单步更新

critic学习奖惩机制,环境和奖惩之间的关系可以使actor单步更新

problem:连续学习连续更新,前后存在相关性

solve:actor-critic + DQN–>DDPG(Deep Deterministic Policy Gradient)

DDPG可以在连续动作上更有效的学习

DDPG

DDPG= Deep + Deterministic + Policy Gradient

Deep:memory replay + target network(更新速度不同)

Deterministic:改变输出动作的过程,由随机选择变为确定输出一个动作

Policy Gradient:动作估计网络(输出实时动作actor施行)|动作现实网络(更新价值网络)

value-based:状态现实网络(输入是动作现实网络的动作)|状态估计网络(输入是动作估计网络的输入)

value-based:状态现实网络(输入是动作现实网络的动作)|状态估计网络(输入是动作估计网络的输入)

RL学习笔记

相关文章:

  • 2021-09-08
  • 2021-11-29
  • 2021-12-23
  • 2021-08-22
  • 2021-10-31
  • 2021-08-18
  • 2021-05-31
  • 2021-04-06
猜你喜欢
  • 2021-09-29
  • 2022-01-01
  • 2021-12-13
  • 2022-01-07
  • 2021-08-11
  • 2021-10-03
  • 2021-04-26
相关资源
相似解决方案