使用强化学习解决分类问题 [关闭]答案

【问题标题】：Using Reinforcement Learning for Classfication Problems [closed]使用强化学习解决分类问题 [关闭]
【发布时间】：2017-11-19 12:17:24
【问题描述】：

我可以在分类中使用强化学习吗？比如人类活动识别？怎么做？

【问题讨论】：

标签： machine-learning classification reinforcement-learning

【解决方案1】：

简短回答：是的。

详细回答：是的，但这是一个矫枉过正。当您没有标记数据集来学习正确的策略时，强化学习很有用，因此您需要根据奖励制定正确的策略。这也允许通过不可微分块进行反向传播（我想这不是你的情况）。强化学习方法的最大缺点是通常需要非常多的时间才能收敛。因此，如果您拥有标签，那么使用常规监督学习会更快、更容易。

【讨论】：

【解决方案2】：

有两种类型的反馈。一种是evaluative，用于强化学习方法，另一种是instructive，用于主要用于分类问题的监督学习。

当使用监督学习时，神经网络的权重会根据训练数据集中提供的正确标签信息进行调整。因此，在选择错误的类时，损失会增加并调整权重，这样对于那种输入，就不会再次选择这个错误的类。

然而，在强化学习中，系统探索所有可能的动作，在这种情况下各种输入的类别标签，并通过评估奖励来决定什么是对的，什么是错的。也可能是这种情况，直到它获得正确的类标签，它可能会给出错误的类名，因为它是迄今为止找到的最好的输出。因此，它没有利用我们对类标签的特定知识，因此与监督学习相比，会显着降低收敛速度。

您可以将强化学习用于分类问题，但它不会给您带来任何额外的好处，反而会减慢您的收敛速度。

【讨论】：

【解决方案3】：

您或许可以开发一个 RL 模型来选择要使用的分类器。用于训练分类器的 gt 标签和这些分类器性能的变化是对 RL 模型的奖励。正如其他人所说，如果有的话，可能需要很长时间才能收敛。这个想法可能还需要许多技巧和调整才能使其发挥作用。我建议搜索有关该主题的研究论文。

【讨论】：