【发布时间】:2021-02-06 11:56:42
【问题描述】:
我正在从事一个关于流失分析的数据科学项目(无论客户是否离开)。我正在尝试做异常值处理部分,但我有一个问题,当我的数据有许多零值时我需要如何思考。我知道它可能包含一个含义,但请查看下面的结果。 Results,Value Counts,z score-hard edges and outliers
我想问我应该怎么做才能获得更好的结果,我应该保留所有零值吗?有什么建议吗? 异常值处理部分零值过多怎么办?
【问题讨论】:
-
如果它们不是“缺失值”,那么你绝对不应该删除这些值,否则你会偏向你的模型。如果他们可能会丢失数据,那么在这种情况下会非常棘手,因为其中大多数是
0。因此,诸如填充一些统计数据之类的幼稚方法可能不是一个好主意。但是,有很多关于处理丢失数据的博客,您可以从中获得一些想法。 -
我不会删除它们,是的,有缺失值,但我想在完成异常值部分后填充它们。
标签: python machine-learning data-science outliers