强化学习——On-policy

目录

三个基本概念——哪些是可变的

Actor的决策——神经网络分类器

一次game——trajectory发生的概率

trajectory的reward和reward的期望

action的梯度

n次游戏，每次游戏t次行为，所有行为发生的概率乘以它的效果。

n次游戏的收集结果只用一次，之后使用更新后的action

实现的时候类似于一个分类器

让reward细化到每个action 的两个简单技巧

三个基本概念——哪些是可变的

强化学习——On-policy

Actor的决策——神经网络分类器

强化学习——On-policy

一次game——trajectory发生的概率

强化学习——On-policy

trajectory的reward和reward的期望

强化学习——On-policy

action的梯度

n次游戏，每次游戏t次行为，所有行为发生的概率乘以它的效果。

强化学习——On-policy

参数更新

n次游戏的收集结果只用一次，之后使用更新后的action

强化学习——On-policy

实现的时候类似于一个分类器

强化学习——On-policy

让reward细化到每个action 的两个简单技巧

强化学习——On-policy

强化学习——On-policy

强化学习——On-policy

相关文章：

2021-10-23
2021-12-14
2021-07-30
2021-09-13
2021-03-28
2022-01-22
2021-05-15
2021-08-27

猜你喜欢

2021-05-23
2021-11-04
2021-04-25
2021-12-04
2021-09-24
2021-07-04
2021-12-19

相关资源

下载 2021-06-05
下载 2023-02-14
下载 2021-06-06

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode