【发布时间】:2021-07-13 14:21:58
【问题描述】:
我正在尝试切断数据框变量的异常值,但它没有按预期执行:
outlier_cutoff1 <- quantile(myd$nov, 0.75) + 1.5 * IQR(myd$nov)
index_outlier1 <- which(myd$nov > outlier_cutoff1)
mydnov <- myd[-index_outlier1, ]
此代码不会出错,但不会更改异常值。
【问题讨论】:
-
仅仅因为离群值位于分布的尾部,所以它几乎从来都不是一种有效的方法。大多数数据的本质都是有尾巴的,删除它们会伪造结果。异常值通常只有在有已知原因导致测量错误发生时才需要删除,因此我们不应该相信它们的有效性