异常值处理部分零值过多怎么办？答案

【问题标题】：What should I do if there are too many zero values in the outlier handling part?异常值处理部分零值过多怎么办？
【发布时间】：2021-02-06 11:56:42
【问题描述】：

我正在从事一个关于流失分析的数据科学项目（无论客户是否离开）。我正在尝试做异常值处理部分，但我有一个问题，当我的数据有许多零值时我需要如何思考。我知道它可能包含一个含义，但请查看下面的结果。 Results,Value Counts,z score-hard edges and outliers

我想问我应该怎么做才能获得更好的结果，我应该保留所有零值吗？有什么建议吗？异常值处理部分零值过多怎么办？

【问题讨论】：

如果它们不是“缺失值”，那么你绝对不应该删除这些值，否则你会偏向你的模型。如果他们可能会丢失数据，那么在这种情况下会非常棘手，因为其中大多数是0。因此，诸如填充一些统计数据之类的幼稚方法可能不是一个好主意。但是，有很多关于处理丢失数据的博客，您可以从中获得一些想法。
我不会删除它们，是的，有缺失值，但我想在完成异常值部分后填充它们。

【解决方案1】：

这个问题太宽泛了，不能在这里问。 Stackoverflow 主要针对编程问题，建议您将问题发布到 stats 或 data-science，因为您的问题更有可能得到更广泛的回答。

我猜 0 值并没有像@yatu 怀疑的那样丢失，从 colname 推断，这意味着收入没有变化。此外，0 不是异常值。

参考this类似讨论。

我可以建议再读一读，但这篇论文会传达直觉，它没有明确讨论您的问题。但是，您可能会发现它很有用。当然，不要忘记搜索参考资料。

【讨论】：