【问题标题】:What should I do if there are too many zero values in the outlier handling part?异常值处理部分零值过多怎么办?
【发布时间】:2021-02-06 11:56:42
【问题描述】:

我正在从事一个关于流失分析的数据科学项目(无论客户是否离开)。我正在尝试做异常值处理部分,但我有一个问题,当我的数据有许多零值时我需要如何思考。我知道它可能包含一个含义,但请查看下面的结果。 Results,Value Counts,z score-hard edges and outliers

我想问我应该怎么做才能获得更好的结果,我应该保留所有零值吗?有什么建议吗? 异常值处理部分零值过多怎么办?

【问题讨论】:

  • 如果它们不是“缺失值”,那么你绝对不应该删除这些值,否则你会偏向你的模型。如果他们可能会丢失数据,那么在这种情况下会非常棘手,因为其中大多数是0。因此,诸如填充一些统计数据之类的幼稚方法可能不是一个好主意。但是,有很多关于处理丢失数据的博客,您可以从中获得一些想法。
  • 我不会删除它们,是的,有缺失值,但我想在完成异常值部分后填充它们。

标签: python machine-learning data-science outliers


【解决方案1】:

这个问题太宽泛了,不能在这里问。 Stackoverflow 主要针对编程问题,建议您将问题发布到 statsdata-science,因为您的问题更有可能得到更广泛的回答。

我猜 0 值并没有像@yatu 怀疑的那样丢失,从 colname 推断,这意味着收入没有变化。此外,0 不是异常值。

参考this类似讨论。

我可以建议再读一读,但这篇论文会传达直觉,它没有明确讨论您的问题。但是,您可能会发现它很有用。当然,不要忘记搜索参考资料。

延伸阅读:A Statistical Model for Big Data with Excessive Zero-Inflated Problem

【讨论】:

  • 非常感谢,我会检查网站和pdf。希望我能找到解决它的方法。
猜你喜欢
  • 2021-11-05
  • 2017-11-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2020-08-23
  • 2015-09-06
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多