1、强化学习的样本通过不断与环境进行交互产生,即试错学习,而监督学习的样本由人工收集并标注。
2、强化学习的反馈信息只有奖励,并且是延迟的,而监督学习需要明确的指导信息(每一个状态对应的动作)。

相关文章:

  • 2021-06-11
  • 2022-12-23
  • 2021-07-18
  • 2021-10-08
  • 2021-07-14
  • 2022-12-23
  • 2022-12-23
猜你喜欢
  • 2021-11-28
  • 2021-09-07
  • 2022-12-23
  • 2022-12-23
  • 2021-09-27
  • 2022-01-11
相关资源
相似解决方案