强化学习介绍--系列文章1

什么是强化学习（增强学习）reinforcement learning

强化学习是一种学习方式，先观察环境的情况，再根据观察的情况采取某种行动。这个行动的目的是让自己获得的奖赏最大化。奖赏既包括现在立即获得的奖赏，也包括未来才体现出来的奖赏。

强化学习有两大特性，一是需要去不断探索试错，二是系统做出一个行为之后，经常要在未来才能获得奖赏。

强化学习的几个例子

来看看几个强化学习的例子和场景，你就基本明白强化学习特点了。

下棋程序程序需要评估目前的棋局，预测各个落子位置后所面临的局面和的对手反应，最后落子

化工厂控制程序程序需要试试采集化工装置的实时状态，并不断调整装置的多种输入量，从而在满足工程师人为设定的一些炼化指标，并且使得成本低，产量高。

股票交易员或股票交易程序不断观察股市的各项数据和指标，观看财经新闻和政治行为，做出买入某些股票的行动，让现在及未来赚的钱最大化。

扫地机器人程序程序观测扫地机器人的电池电量和目前位置等信息，决定是继续去一个新房间打扫卫生或者返回充电器那里去充电。

强化学习和监督学习的区别

监督学习的训练样本是有label，数据有标注的，像有一个老师在旁边不断的修正你。

强化学习在训练过程中没有标注好的训练样本，没有老师不断修正，自学成才。

强化学习可以从与环境的交互中吸取经验，学习到知识。

强化学习的挑战

exploration and exploitation探索与利用困境

强化学习系统一方面必须根据以前学习到的知识，采取选择不同情况下的最佳行动，从而最大化奖赏（exploitation）；另一方面又必须去探索各种行为可能带来的奖赏和收益，从而发现更好行动，以升级自己的认知，在未来获得更好奖赏（exploration）。

另外，在探索过程中，如果某个行为获得了很好的奖励，并不能认为这个行为就是好行为，还要充分的多次尝试，才能得到经得起统计检验的结论。比如你昨天花费5元钱买**中了1万元，并不能得出：采取行动（买**）--->逾期收益(1万元) 的结论，因为有些奖赏背后其实含有很大的随机因素，还需要试用的次数足够大，才能得到可靠结论。

“探索未知领域”和“最大化当下收益”这两种行为是矛盾的，所以强化学习系统需要把握好这个度，做好两者之间的平衡。在这个问题上有很多数学家投入精力进行研究，而在监督学习领域，则完全没有这个问题。

研究趋势

强化学习属于人工智能的一个重要分支。强化学习的研究趋势很大程度上和整个人工智能的研究趋势是一致的。

早期的人工智能系统主要研究逻辑、符号，人工智能系统是由LISP语言开发程序。而最近十几年的趋势是用线性代数、差分方程、统计学、神经网络来表达人工智能系统。早期的人工智能与控制理论、统计学几乎就是不相干的学科，而目前它们之间的联系越来越紧密了。

小结：

强化学习是一种给机器设定目标，让机器自己去学习该如何决策和行动的方法。

强化学习在于环境的交互中自己学习，而不需要像监督学习那样需要标注好的数据。