【发布时间】:2017-01-28 09:34:55
【问题描述】:
我需要丢弃变量的异常值。 我想减少变量的上 10%。 然而我不知道如何找出我的上 10%。 如果我在 30 进行随机切割,我会得到较高的 3.45 %。
dat$T102_01[dat$T102_01 < 30]
有没有办法告诉 r 不要取
由于我不想做出基于内容的决定(任何高于 30 的值都是不现实的),因此最好采用我评估过的所有变量的前 10%。
我会非常感谢任何 cmets
抱歉,我无法添加我的情节图片。分布偏斜,大多数值在0-30之间,非常视图值在30-100之间
【问题讨论】:
-
您可以使用
?quantile来获取 %cutpoint,然后将向量子集化。例如x = 20:1 ; cutpoint = quantile(x, p=0.9) ; x[x < cutpoint]
标签: r percentage outliers