本文的参考资料均来自飞桨PaddlePaddle的强化学习七日课程,这里仅做总结。

强化学习——其他机器学习的联系

监督学习:输入x,输出你想要的y,一般用于分类:图像识别 回归:预测房价(任务驱动型)

非监督学习:输入一批x,判断x与x之间不一样聚类:寻找数据之间的关系和区别(数据驱动型)

强化学习:输入的x为environment的状态,输出的是state,使算法适配环境(环境驱动型)

强化学习——其他机器学习的联系

强化学习与监督学习的区别:

监督学习的特点是认知识别,标记的样本数据决定了它的能力,存在“天花板”。

强化学习的特点是决策, 强化学习可以试错和探索。

强化学习——其他机器学习的联系

强化学习也要在“新饭店探索新口味”与“旧饭店挑选好吃的”中均衡。

强化学习——其他机器学习的联系

Agent学习的两种方法:value-based、policy-based

强化学习——其他机器学习的联系

强化学习——其他机器学习的联系

强化学习——其他机器学习的联系

 

 

相关文章:

  • 2021-08-20
  • 2021-08-11
  • 2022-01-13
  • 2021-04-06
  • 2021-09-17
  • 2022-01-16
  • 2021-04-26
  • 2021-08-02
猜你喜欢
  • 2021-07-09
  • 2021-10-02
  • 2022-01-24
  • 2021-12-13
  • 2021-12-08
  • 2021-07-26
  • 2021-07-11
相关资源
相似解决方案