Deep RL 概述
视频链接:p1-2020 最新课程 (完整版) 强化学习
ppt链接:http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLDS18.html
什么是强化学习
解决智能体(agent)在与环境(environment)的交互过程中通过学习策略以达成回报(reward)最大化或实现特定目标的问题
Actor/Policy
应用
- Alpha GO: 监督学习+强化学习
- Chat Robot: 生成对话,并对生成的对话进行评估
- Interactive Retrieval
- flying Helicopter
- Driving
- Google Cuts Its Giant Electricity Bill With DeepMind Powered AI
- Text generation
- Playing video games: 最大化整个游戏过程中的累积期望reward
RL的难点
- reward delay,有些action可可能在后期才会得到巨大的reward。前期表现一般或者带来负影响。
- agent的action会影响后续数据的获取
outline
Alpha Go :policy-based +value-based +model_based
Policy-based Approach – learn an actor
三个步骤
step1:确定函数集,将神经网络作为actor。
- 神经网络的输入:机器观察表示为向量或矩阵
- 神经网络的输出:与神经元输出层关联的每个action(action的概率)
step2:
- 衡量actor的好坏 ,, 表示网络参数 ,使用总回报reward的期望值来进行评估。, 在相同的actor下,每次也不一样。
trajectory
代表过程,有很多种情况,难以穷举。当选择actor时,只有某一些,即游戏过程容易出现,过程出现的概率。
使用重复n次过程,获得,从采样N次,即:
step3:选择最好的actor
- Problem statement
- Gradient Ascent
- start with
-
-
- …
do not have to be differentiable,它甚至可以是一个黑盒
t是某个时候,计算所有时间
a出现几率小
b出现几率大
使用log,除以概率,这样就不会偏向出现几率高的action了。normalization。
如果R一直都是正,理想情况下是ok的,但是实际采样随机,这个时候我们希望R有正有负
减掉一个bias,让R有正有负,bias超参数,自己设定