人之所以能适应环境的变化并不断提高解决问题的能力,其原因是人能通过学习积累经验,总结规律,以增长知识和才能,从而更好地改善自己的决策和行为。强化学习的思想来源于人类对动物学习过程的长期观察。在机器学习范畴,依据从系统中获得的反馈不同,机器学习可以分为监督学习,无监督学习和强化学习。
强化学习概念
强化学习要解决的问题:
一个能够感知环境的自治智能体(Agent),如何通过学习选择能够达到目标的最优动作,即强化学习Agent的要解决的问题就是学习从环境到动作的映射。
强化学习的特征:
(1)Agent不是静止的、被动的等待,而是主动的对环境做出试探;
(2)环境对试探动作反馈的信息是评价性的(好或坏,奖励还是非奖励);
(3)Agent在行动-评价的环境(迭代)中获得知识,改进行动方案以适应环境,达到预期目的。
那么,有了强化学习的特征,我们就能知道强化学习的模型了。
强化学习把学习看作试探评价过程,基本模型如图所示:
强化学习的目的就是寻找一个最优策略,使得Agent在运行中所获得的累计报酬值最大。
强化学习对应四元组:
E = < X, A, P, R >
- 策略(A):定义了Agent在给定时刻的行为方式, 直接决定了Agent的动作,是强化学的核心。
- 回报函数(R):Agent在对环境做出动作之后,环境对动作好坏的评价。(有正有负)
- 值函数(X):Agent从该状态起所能积累的回报的总和。(长远计算)
- 转移函数(P):将环境从当前状态转移到另一个状态的概率函数。
- 环境模型(E):是强化学习系统的一个可选的组成部分。
回报函数和值函数
两者的区别:回报是环境给的立即评价,而值函数则是随后一系列状态所对应的累积。
两者的联系:没有回报就没有值函数,最优化值函数的目的是为了获得更多回报。
事实上,几乎所有的强化学习算法都是如何有效最优化值函数。
Multi-arm Bandits
在状态动作空间足够小时,可以表示成表格方式求解,适用的问题有K-Armed Bandits问题和有限马尔科夫判决过程。
问题抽象:
你需要在k个选项中做出选择,选定后环境会根据你的选项给出报酬。然后再选择,一直重复下去。你的目标是在有限时间内最大化报酬
特点:
- 属于强化学习问题,使用评估反馈而不是指导反馈。评估反馈与采取的行为有关,评估行为的好坏,但不清楚是不是最好的行为。指导反馈与行为无关,总是指向最佳的行为。例如神经网络的训练,按定制好的规则更新,总是指向收敛点,不评估此次更新的好坏。
- 非关联性。只涉及一种情景,不需要考虑不同行为与不同情景的关联。
- 静态。选项不变。环境针对每个行为生成报酬的概率分布不变。
- 有限时间。
可用贪婪算法求解,首先我们定义行为的价值(Action-Value Methods)
行为的价值
t时刻选择行为a的期望报酬:
用
可用样本平均法求解
- 贪婪解法:任意时刻t在选择行为之前先估计每个行为的
- ε-贪婪解法:以1−ϵ的概率选择
早期ε较大,多探索少利用;后期ε较小,多利用少探索
估计价值的过佳初始值
将所有行为的
只适用于静态问题,非静态问题中,早期探索的结果到后期是没有意义的。
确信上界行为选择
衡量行为的好坏不仅考虑它的
其中
不论行为的真实
越长。
梯度方法
用
在每一步中,选择动作
梯度方法的推导reinforcement learning 37-39页
非静态问题
非静态问题产生报酬的概率分布会变化,在这种情形下,久远的历史对当前
- (1−
α )n 逼近0,对初始值不敏感 - i越小,
α(1−α)n−i 越小,对久远的旧值不敏感