在机器学习中使用反馈或强化？答案

【问题标题】：Use feedback or reinforcement in machine learning?在机器学习中使用反馈或强化？
【发布时间】：2014-05-16 06:07:56
【问题描述】：

我正在尝试解决一些分类问题。似乎许多经典方法都遵循类似的范式。也就是说，用一些训练集训练一个模型，然后用它来预测新实例的类标签。

我想知道是否可以在范例中引入一些反馈机制。在控制理论中，引入反馈回路是提高系统性能的有效途径。

目前我想到的一个直接的方法是，首先我们从一组初始实例开始，并用它们训练一个模型。然后每次模型做出错误的预测时，我们都会将错误的实例添加到训练集中。这与盲目扩大训练集不同，因为它更具针对性。这可以看作是控制理论语言中的某种负反馈。

是否有关于反馈方法的研究？有人能解释一下吗？

【问题讨论】：

查看boosting，这基本上就是你所描述的。
是否应该迁移到stats.stackexchange.com？
smwikipedia：我遇到了完全相同的问题。 stackoverflow.com/questions/36068292/…。您愿意分享您的发现吗？
@AnujGupta 我的问题启发了控制理论中的负反馈理论。这个问题已经有一段时间了，但由于项目转移，我没有深入研究它。我建议你阅读下面的回复。尤其是我赏金的那个。很抱歉不能为您提供太多帮助。

标签： machine-learning data-mining

【解决方案1】：

我想到了两个研究领域。

第一个是Reinforcement Learning。这是一种在线学习范例，可让您在观察结果时获得反馈并更新您的策略（在本例中为您的分类器）。

第二个是active learning，分类器可以从未分类的示例池中选择示例以进行标记。关键是让分类器通过在当前分类器假设下选择困难的例子来选择最能提高其准确性的例子进行标注。

【讨论】：

【解决方案2】：

我在我从事的每个机器学习项目中都使用了这样的反馈。与随机选择数据相比，它允许训练更少的数据（因此训练更快）。模型的准确性也比使用随机选择的训练数据提高得更快。我正在处理图像处理（计算机视觉）数据，所以我正在做的另一种类型的选择是添加聚集的错误（错误）数据，而不是添加每个错误数据。这是因为我假设我总会遇到一些失败，所以我对正数据的定义是当它聚集在图像的同一区域时。

【讨论】：

我认为这不适用于所有机器学习方法。在失败的数据点上训练它使其变得更好的事实并不明显（可能是，它开始在集合之外的所有点上失败）。您的经验只是一个数据点，请通过一些学术研究参考来支持它。还要提及您使用的确切方法，因为行为可能会截然不同。否则我会怀疑，因为我的经验告诉我，这种方法的工作频率低于实际情况，但我只是另一个数据点......
如果关于 SO 的每个答案都必须得到学术研究参考文献的支持，那么只有少数几个被接受的答案。我将这项技术应用于 OCR、图像相似性和行人检测。我使用了 GentleBoost。在处理图像时，负样本的数量几乎是无限的，而正样本的数量非常有限，因此使用从无限可能中随机选择的数据是低效的。训练时间会更长，准确率会更低。
并非所有关于 SO 的答案都应该有参考文献的支持。这应该。否则，这只是一个人的意见。因此，您在三个项目中使用了这种技术，在答案中提到了这一点，它帮助解决了哪些问题。 “我从事的每个机器学习项目”都非常广泛。如果你研究了三个，那么对于这种说法来说，这只是很少的数据。我工作了> 20，但我根本不知道答案是什么，因为它对我来说总是不同的。是的，我可能做错了什么，这让您有更好的理由说明您到底做了什么，以便答案变得有用。
另外，“反馈方法是否正在进行任何研究？”是在问题中，因此 OP 期望对有关该主题的文献进行一些参考。提及如何调用此方法，提供一些链接以供进一步阅读等。目前此答案相当于“是的，它帮助了我几次”，这是一个评论。

【解决方案3】：

我前段时间看到了this paper，这似乎就是你要找的。p>

他们基本上将分类问题建模为Markov decision processes 并使用ACLA algorithm 解决。这篇论文比我在这里写的要详细得多，但最终他们得到的结果优于multilayer perceptron，所以这看起来是一种非常有效的方法。

【讨论】：

论文的链接好像坏了。您能否提供一个不同的工作链接，或以文本形式引用论文作为替代？而且搜索 DeepDyve 的 ACLA 链接也没有任何有用的结果。请也调查一下。谢谢。
链接断开，引用总是更好或不可变