人之所以能适应环境的变化并不断提高解决问题的能力,其原因是人能通过学习积累经验,总结规律,以增长知识和才能,从而更好地改善自己的决策和行为。强化学习的思想来源于人类对动物学习过程的长期观察。在机器学习范畴,依据从系统中获得的反馈不同,机器学习可以分为监督学习,无监督学习和强化学习。

强化学习概念

强化学习要解决的问题:
一个能够感知环境的自治智能体(Agent),如何通过学习选择能够达到目标的最优动作,即强化学习Agent的要解决的问题就是学习从环境到动作的映射。

强化学习的特征:
(1)Agent不是静止的、被动的等待,而是主动的对环境做出试探;
(2)环境对试探动作反馈的信息是评价性的(好或坏,奖励还是非奖励);
(3)Agent在行动-评价的环境(迭代)中获得知识,改进行动方案以适应环境,达到预期目的。

那么,有了强化学习的特征,我们就能知道强化学习的模型了。

强化学习把学习看作试探评价过程,基本模型如图所示:
强化学习笔记01,02——强化学习问题和Multi-arm Bandits
强化学习的目的就是寻找一个最优策略,使得Agent在运行中所获得的累计报酬值最大。

强化学习对应四元组:
E = < X, A, P, R >

  • 策略(A):定义了Agent在给定时刻的行为方式, 直接决定了Agent的动作,是强化学的核心。
  • 回报函数(R):Agent在对环境做出动作之后,环境对动作好坏的评价。(有正有负)
  • 值函数(X):Agent从该状态起所能积累的回报的总和。(长远计算)
  • 转移函数(P):将环境从当前状态转移到另一个状态的概率函数。
  • 环境模型(E):是强化学习系统的一个可选的组成部分。

回报函数和值函数
两者的区别:回报是环境给的立即评价,而值函数则是随后一系列状态所对应的累积。
两者的联系:没有回报就没有值函数,最优化值函数的目的是为了获得更多回报。
事实上,几乎所有的强化学习算法都是如何有效最优化值函数。

Multi-arm Bandits

在状态动作空间足够小时,可以表示成表格方式求解,适用的问题有K-Armed Bandits问题和有限马尔科夫判决过程。
问题抽象
你需要在k个选项中做出选择,选定后环境会根据你的选项给出报酬。然后再选择,一直重复下去。你的目标是在有限时间内最大化报酬
特点

  • 属于强化学习问题,使用评估反馈而不是指导反馈。评估反馈与采取的行为有关,评估行为的好坏,但不清楚是不是最好的行为。指导反馈与行为无关,总是指向最佳的行为。例如神经网络的训练,按定制好的规则更新,总是指向收敛点,不评估此次更新的好坏。
  • 非关联性。只涉及一种情景,不需要考虑不同行为与不同情景的关联。
  • 静态。选项不变。环境针对每个行为生成报酬的概率分布不变。
  • 有限时间。

可用贪婪算法求解,首先我们定义行为的价值(Action-Value Methods)
行为的价值
t时刻选择行为a的期望报酬:

q(a)=E[Rt|At=a]

Qt(a)表示对q(a)的估计.
可用样本平均法求解Qt(a)
强化学习笔记01,02——强化学习问题和Multi-arm Bandits
- 贪婪解法:任意时刻t在选择行为之前先估计每个行为的Qt,然后选择Qt最大的行为。
- ε-贪婪解法:以1−ϵ的概率选择Qt最大的行为,以ϵ的概率从其余的行为中随机(一般是等概率地)选一个。
早期ε较大,多探索少利用;后期ε较小,多利用少探索

估计价值的过佳初始值

将所有行为的Q1设置为大于最大可能报酬的值,能在问题早期激励探索。只要行为a没被选择过,Qt(a)一定是当前最大的
只适用于静态问题,非静态问题中,早期探索的结果到后期是没有意义的。
强化学习笔记01,02——强化学习问题和Multi-arm Bandits

确信上界行为选择

衡量行为的好坏不仅考虑它的Qt,还考虑该行为是潜在最佳行为的可能性
强化学习笔记01,02——强化学习问题和Multi-arm Bandits
其中Nt(a)表示在t时间段内动作a被选择的次数,c>0决定探索的程度。如果Nt(a)=0,则动作a是最可能被选择的动作。
不论行为的真实q是多少,所有行为每隔一段时间总会被挑选一次。q越小,被选择的间隔时间
越长。
强化学习笔记01,02——强化学习问题和Multi-arm Bandits

梯度方法

Ht(a)表示t时刻对行为a的偏爱,则a被选择的概率为:
强化学习笔记01,02——强化学习问题和Multi-arm Bandits
在每一步中,选择动作At并且获得回报Rt,则Ht(a)更新:
强化学习笔记01,02——强化学习问题和Multi-arm Bandits
R¯¯¯是所有已有报酬的均值。α是步长参数。 R¯¯¯作为baseline,如果某个动作的报酬比baseline高,则采取该动作的概率将增大。反之亦反。
梯度方法的推导reinforcement learning 37-39页

非静态问题

非静态问题产生报酬的概率分布会变化,在这种情形下,久远的历史对当前Qt的估计参考价值不大,估计当前Qt时,对历史加权。 最常用的加权方式如下:
强化学习笔记01,02——强化学习问题和Multi-arm Bandits
α(0,1],随着n增大:

  • (1−α)n逼近0,对初始值不敏感
  • i越小,α(1α)ni越小,对久远的旧值不敏感

相关文章: