罕见事件的机器学习分类问题总是预测为 0答案

【问题标题】：ML Classification Problem For Rare Event Always Predicts 0罕见事件的机器学习分类问题总是预测为 0
【发布时间】：2019-03-09 04:24:03
【问题描述】：

我遇到了机器学习问题。我有一个机器学习分类任务，其中分类是 -1、0 或 1。实际上，正确分类的绝大多数时间是 0，大约 1% 的时间，答案是 -1 或 1。

在训练时（我正在使用 auto_ml，但我认为这是一个普遍问题）我发现我的模型决定它可以通过每次预测 0 来获得 99% 的准确度。

这是一个已知现象吗？除了提出更多分类之外，我还能做些什么来解决这个问题？可能会将 0 分成不同的类别。

感谢任何建议或指示下一步阅读的内容。

谢谢。

【问题讨论】：

【解决方案1】：

您应该更深入地研究您的数据集。看来，您的数据集不平衡。可能的解决方案：

尝试平衡您的数据集 - 添加更多带有标签 1 和 -1 的数据或减少带有 0 标签的行数；
如果无法使您的数据集保持平衡，请尝试更改方法。您可以假设标签 1 和 -1 是异常值，并尝试解决查找异常值的问题。这里是some examples 如何使用库 scikit-learn 处理异常值；

【讨论】：

【解决方案2】：

是的，ML 可以很懒惰 ;-)

您可以尝试将更多罕见案例纳入您的训练集中。不过，您使用“事件”这个词，这让我想知道您是否在进行某种时间序列分析——这是某种循环网络吗？如果是这样，那么训练更多罕见事件可能是不现实的。

【讨论】：