百度PaddlePaddle强化学习七日打卡营
- 强化学习
- Agent的两种学习方案
- PARL
- 强化学习MDP四元组
- 在线学习VS离线学习
- Sarsa-learn函数
- 离散动作VS连续动作
- Policy-gradient
- DQN 
- run_episode function
- 折扣因子
强化学习
- model-based
- model-free(value-based,policy-based)
DQN、DDPG、PG、PPO、ES、TD3、SAC、A2C、IMPALA、MADDPG
Agent的两种学习方案
- value-based
- policy-based()
PARL
快速搭建并行框架
- 在PARL中,并行仅需一个修饰符(parl.remote_class)
强化学习MDP四元组
MDP:马尔科夫决策过程
S:state 状态
A:action 动作
R:reward 奖励
P:probability 状态转移概率