强化学习笔记01，02——强化学习问题和Multi-arm Bandits

人之所以能适应环境的变化并不断提高解决问题的能力，其原因是人能通过学习积累经验，总结规律，以增长知识和才能，从而更好地改善自己的决策和行为。强化学习的思想来源于人类对动物学习过程的长期观察。在机器学习范畴，依据从系统中获得的反馈不同，机器学习可以分为监督学习，无监督学习和强化学习。

强化学习概念

强化学习要解决的问题：
一个能够感知环境的自治智能体（Agent），如何通过学习选择能够达到目标的最优动作，即强化学习Agent的要解决的问题就是学习从环境到动作的映射。

强化学习的特征：
（1）Agent不是静止的、被动的等待，而是主动的对环境做出试探；
（2）环境对试探动作反馈的信息是评价性的（好或坏，奖励还是非奖励）；
（3）Agent在行动-评价的环境（迭代）中获得知识，改进行动方案以适应环境，达到预期目的。

那么，有了强化学习的特征，我们就能知道强化学习的模型了。

强化学习把学习看作试探评价过程，基本模型如图所示：
强化学习笔记01，02——强化学习问题和Multi-arm Bandits
强化学习的目的就是寻找一个最优策略，使得Agent在运行中所获得的累计报酬值最大。

强化学习对应四元组：
E = < X, A, P, R >

策略(A)：定义了Agent在给定时刻的行为方式，直接决定了Agent的动作，是强化学的核心。
回报函数(R)：Agent在对环境做出动作之后，环境对动作好坏的评价。（有正有负）
值函数(X)：Agent从该状态起所能积累的回报的总和。（长远计算）
转移函数(P)：将环境从当前状态转移到另一个状态的概率函数。
环境模型(E)：是强化学习系统的一个可选的组成部分。

回报函数和值函数
两者的区别：回报是环境给的立即评价，而值函数则是随后一系列状态所对应的累积。
两者的联系：没有回报就没有值函数，最优化值函数的目的是为了获得更多回报。
事实上，几乎所有的强化学习算法都是如何有效最优化值函数。

Multi-arm Bandits

在状态动作空间足够小时，可以表示成表格方式求解，适用的问题有K-Armed Bandits问题和有限马尔科夫判决过程。
问题抽象：
你需要在k个选项中做出选择，选定后环境会根据你的选项给出报酬。然后再选择，一直重复下去。你的目标是在有限时间内最大化报酬
特点：

属于强化学习问题，使用评估反馈而不是指导反馈。评估反馈与采取的行为有关，评估行为的好坏，但不清楚是不是最好的行为。指导反馈与行为无关，总是指向最佳的行为。例如神经网络的训练，按定制好的规则更新，总是指向收敛点，不评估此次更新的好坏。
非关联性。只涉及一种情景，不需要考虑不同行为与不同情景的关联。
静态。选项不变。环境针对每个行为生成报酬的概率分布不变。
有限时间。

可用贪婪算法求解，首先我们定义行为的价值（Action-Value Methods）
行为的价值
t时刻选择行为a的期望报酬:

q * (a) = E [R t | A t = a]

用Qt(a)表示对q∗(a)的估计.
可用样本平均法求解Qt(a)：
强化学习笔记01，02——强化学习问题和Multi-arm Bandits

- 贪婪解法：任意时刻t在选择行为之前先估计每个行为的Qt，然后选择Qt最大的行为。
- ε-贪婪解法：以1−ϵ的概率选择Qt最大的行为，以ϵ的概率从其余的行为中随机（一般是等概率地）选一个。
早期ε较大，多探索少利用；后期ε较小，多利用少探索

估计价值的过佳初始值

将所有行为的Q1设置为大于最大可能报酬的值，能在问题早期激励探索。只要行为a没被选择过，Qt(a)一定是当前最大的
只适用于静态问题，非静态问题中，早期探索的结果到后期是没有意义的。
强化学习笔记01，02——强化学习问题和Multi-arm Bandits

确信上界行为选择

衡量行为的好坏不仅考虑它的Qt，还考虑该行为是潜在最佳行为的可能性
强化学习笔记01，02——强化学习问题和Multi-arm Bandits
其中Nt(a)表示在t时间段内动作a被选择的次数，c>0决定探索的程度。如果Nt(a)=0，则动作a是最可能被选择的动作。
不论行为的真实q∗是多少，所有行为每隔一段时间总会被挑选一次。q∗越小，被选择的间隔时间
越长。
强化学习笔记01，02——强化学习问题和Multi-arm Bandits

梯度方法

用Ht(a)表示t时刻对行为a的偏爱，则a被选择的概率为：
强化学习笔记01，02——强化学习问题和Multi-arm Bandits
在每一步中，选择动作At并且获得回报Rt，则Ht(a)更新：

R¯¯¯是所有已有报酬的均值。α是步长参数。 R¯¯¯作为baseline，如果某个动作的报酬比baseline高，则采取该动作的概率将增大。反之亦反。
梯度方法的推导reinforcement learning 37-39页

非静态问题

非静态问题产生报酬的概率分布会变化，在这种情形下，久远的历史对当前Qt的估计参考价值不大,估计当前Qt时，对历史加权。最常用的加权方式如下：
强化学习笔记01，02——强化学习问题和Multi-arm Bandits
α∈(0,1]，随着n增大：

(1−α)n逼近0，对初始值不敏感
i越小，α(1−α)n−i越小，对久远的旧值不敏感