【发布时间】:2022-01-16 15:30:25
【问题描述】:
我有一个数据框,它的“S.A”列中有 20 多个类型值。我展示了以下列的示例:
structure(list(`temp$S.A[1:30]` = c("Yaletown", "Fairview VW",
"West End VW", "Fairview VW", "Downtown VW", "Hastings", "Yaletown",
"Main", "Marpole", "West End VW", "Yaletown", "Yaletown", "Kitsilano",
"Hastings East", "Grandview VE", "Grandview Woodland", "Downtown VW",
"Downtown VW", "West End VW", "Downtown VE", "West End VW", "West End VW",
"West End VW", "Yaletown", "Downtown VW", "West End VW", "Downtown VW",
"West End VW", "Yaletown", "West End VW")), row.names = c(NA,
-30L), class = "data.frame")
如果我使用table 函数,我会得到如下所示的结果,其中显示了我的数据框中 S.A 的所有可能值:
现在,我想做的是将重复次数少于 100 的名称替换为“其他”。例如,在下面显示的值中,“Arbutus”重复少于 100 次,因此我想将所有“Arbutus”值更改为“其他”以减少变量数量。 我尝试了这段代码来查找名称:
aa <- as.data.frame(table(temp$S.A))
bb <- subset(aa, aa$Freq < 100)
cc <- bb[1]
这有助于我找到名称,但是,我不确定如何继续并替换它们。
【问题讨论】: