一、学习内容

5.连续动作空间上求解RL

5.1连续动作空间

离散和连续动作跟环境有关:

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL

可分别采用随机性策略和确定性策略:

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL

实践中可分别用sample函数和tanh函数:

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL

DDPG(Deep Deterministic Policy Gradient)的来源:

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL

DDPG可看做DQN的扩展版本,添加了策略网络,使用了RL中的Actor-Critic架构

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL

DQN有2条经验的:target网络,以及经验回放

DDPG里面也用了相同的方式来稳定训练,算法如下:

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL

5.2DDPG代码与总结

DDPG的算法结构整体如下:

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL

model文件中算法如下:

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL

algorithm文件中算法如下:

1)critic网络更新:

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL

2)actor网络更新:

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL

2)target网络更新:

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL

agent文件中算法如下(这里就不细说了,还是PARL的框架:)):

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL

训练过程(以CartPole为例):

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL

DDPG的总结如下:

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL

5.3大作业与创意赛环境

这里面主要展示一些RL常用的模拟环境,大家可以尝试一下:)

1)PARL中的四轴飞行器环境(收敛时间大概7-8小时)

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL

2)电梯环境

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL

3)简单弹跳和接球游戏

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL

4)简单的游戏

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL

5)机械臂、股票预测、飞行器等环境

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL

6)机械臂环境

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL

7)交通灯信号控制环境

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL

最后,回顾下课程大纲:

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL

给了个后续学习的推荐材料:

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL

相关文章:

  • 2021-09-06
  • 2021-11-02
  • 2021-10-03
  • 2021-12-20
  • 2021-06-15
  • 2021-10-02
  • 2021-08-06
  • 2021-08-10
猜你喜欢
  • 2021-07-25
  • 2022-01-21
  • 2021-10-25
  • 2021-09-04
  • 2021-08-05
  • 2021-12-16
  • 2021-04-18
相关资源
相似解决方案