【发布时间】:2020-08-04 16:11:36
【问题描述】:
我希望在 k 表示聚类后删除聚类中的异常数据点,并在 R 中使用这种方式:-
1.)绘制图形:-
plot(sort(df[[1]]$var))
plot(sort(df[[2]]$var))
2.)从图表中查看异常值(在我的情况下为极端)数据点。
rownames(df[[1]])<-1:nrow(df[[1]])
rownames(df[[2]])<-1:nrow(df[[2]])
3.)转到view(df[[1]]),view(df[[2]]) 按降序对var 进行排序,并记下那些作为异常数据点的行索引号,然后从df[[1]] ,df[[2]] 中删除这些行
df[[1]]<-df[[1]][-c(200,320,216),]
df[[2]]<-df[[2]][-c(7000,1200,2320),]
df 是一个包含 3 个元素的列表,df[[1]] 访问第一个元素/簇
还有其他简单有效的方法可以达到同样的效果吗?
【问题讨论】:
-
请考虑MCVE这可能会有所帮助:stackoverflow.com/questions/5963269/…
-
看看
?boxplot.stats,它将识别向量中的统计异常值。 -
我只想删除按变量
var的降序排序的列表的前 n(n) 行。
标签: r dataframe cluster-analysis k-means outliers