【发布时间】:2019-03-06 09:36:15
【问题描述】:
考虑这个数据表
NumberOfAccidents MeanDistance
1 5
3 0
0 NA
0 NA
6 1.2
2 0
第一个特征是事故数量,第二个是这些事故到某一点的平均距离。很明显,对于零事故的记录,MeanDistance 不会有值。但是,估算这些缺失值是不合逻辑的!
我的解决方案:我决定将MeanDistance 离散化,其中NAs 是一个级别(bin),其余数据位于bin 中,例如:[0,1), [1,2.5), [2.5, Inf)。决赛桌将如下所示:
NumberOfAccidents NAs first_bin sec_bin third_bin
1 0 0 0 1
3 0 1 0 0
0 1 0 0 0
0 1 0 0 0
6 0 0 1 0
2 0 1 0 0
您对这些无法估算的缺失值有什么想法? 您对此问题的解决方案是什么?
【问题讨论】:
标签: machine-learning classification missing-data