本文的参考资料均来自飞桨PaddlePaddle的强化学习七日课程,这里仅做总结。
监督学习:输入x,输出你想要的y,一般用于分类:图像识别 回归:预测房价(任务驱动型)
非监督学习:输入一批x,判断x与x之间不一样,聚类:寻找数据之间的关系和区别(数据驱动型)
强化学习:输入的x为environment的状态,输出的是state,使算法适配环境(环境驱动型)
强化学习与监督学习的区别:
监督学习的特点是认知识别,标记的样本数据决定了它的能力,存在“天花板”。
强化学习的特点是决策, 强化学习可以试错和探索。
强化学习也要在“新饭店探索新口味”与“旧饭店挑选好吃的”中均衡。
Agent学习的两种方法:value-based、policy-based