强化学习——其他机器学习的联系

本文的参考资料均来自飞桨PaddlePaddle的强化学习七日课程，这里仅做总结。

强化学习——其他机器学习的联系

监督学习：输入x，输出你想要的y，一般用于分类：图像识别回归：预测房价（任务驱动型）

非监督学习：输入一批x，判断x与x之间不一样，聚类：寻找数据之间的关系和区别（数据驱动型）

强化学习：输入的x为environment的状态，输出的是state，使算法适配环境（环境驱动型）

强化学习——其他机器学习的联系

强化学习与监督学习的区别：

监督学习的特点是认知识别，标记的样本数据决定了它的能力，存在“天花板”。

强化学习的特点是决策，强化学习可以试错和探索。

强化学习——其他机器学习的联系

强化学习也要在“新饭店探索新口味”与“旧饭店挑选好吃的”中均衡。

强化学习——其他机器学习的联系

Agent学习的两种方法：value-based、policy-based

强化学习——其他机器学习的联系