【问题标题】:ML Classification Problem For Rare Event Always Predicts 0罕见事件的机器学习分类问题总是预测为 0
【发布时间】:2019-03-09 04:24:03
【问题描述】:

我遇到了机器学习问题。我有一个机器学习分类任务,其中分类是 -1、0 或 1。实际上,正确分类的绝大多数时间是 0,大约 1% 的时间,答案是 -1 或 1。

在训练时(我正在使用 auto_ml,但我认为这是一个普遍问题)我发现我的模型决定它可以通过每次预测 0 来获得 99% 的准确度。

这是一个已知现象吗?除了提出更多分类之外,我还能做些什么来解决这个问题?可能会将 0 分成不同的类别。

感谢任何建议或指示下一步阅读的内容。

谢谢。

【问题讨论】:

  • 你刚刚偶然发现了一个类不平衡问题;谷歌并开始挖掘(这是一个完整的子领域)......

标签: machine-learning classification automl


【解决方案1】:

您应该更深入地研究您的数据集。看来,您的数据集不平衡。可能的解决方案:

  • 尝试平衡您的数据集 - 添加更多带有标签 1 和 -1 的数据或减少带有 0 标签的行数;
  • 如果无法使您的数据集保持平衡,请尝试更改方法。您可以假设标签 1 和 -1 是异常值,并尝试解决查找异常值的问题。这里是some examples 如何使用库 scikit-learn 处理异常值;

【讨论】:

    【解决方案2】:

    是的,ML 可以很懒惰 ;-)

    您可以尝试将更多罕见案例纳入您的训练集中。不过,您使用“事件”这个词,这让我想知道您是否在进行某种时间序列分析——这是某种循环网络吗?如果是这样,那么训练更多罕见事件可能是不现实的。

    【讨论】:

      猜你喜欢
      • 2011-10-04
      • 2020-06-28
      • 2017-05-09
      • 2016-02-25
      • 1970-01-01
      • 2011-02-01
      • 1970-01-01
      • 2011-03-02
      • 1970-01-01
      相关资源
      最近更新 更多