【发布时间】:2015-10-16 19:33:14
【问题描述】:
我们需要填写一个分类数据表。我倾向于写太多的循环,我试图弄清楚如何使用apply() 来完成它。我正在扫描最后一列以找到一个非缺失值,然后在每列中填写其上方的值,仅在对角线上。因此,如果有 3 列,这将填充最后一列的值。我会为每个“更高的分类级别”或左侧的下一列重复它:
# fills in for Family-level taxonomy
for(i in nrows(DataFrame)){
if(is.na(DataFrame[[4]][i])) next
else {
DataFrame[[3]][i] <- DataFrame[[3]][i-1]
DataFrame[[2]][i] <- DataFrame[[2]][i-2]
DataFrame[[1]][i] <- DataFrame[[1]][i-3]
}
}
# Repeat to fill in Order's higher taxonomy (Phylum and Class)
for(i in nrows(DataFrame)){ # fills in for Family
if(is.na(DataFrame[[3]][i])) next
else {
DataFrame[[2]][i] <- DataFrame[[2]][i-2]
DataFrame[[1]][i] <- DataFrame[[1]][i-3]
}
}
# And again for each column to the left.
数据可能如下所示:
Phylum Class Order Family
Annelida
Polychaeta
Eunicida
Oenoidae
Onuphidae
Oweniida
Oweniidae
然后,将针对该顺序中的每个独特家族、类别中的每个独特顺序以及门中的每个独特类别重复此操作。本质上,我们需要从其上方的下一个非缺失值开始填充每个非缺失值左侧的值。所以最终的结果是:
Phylum Class Order Family
Annelida
Annelida Polychaeta
Annelida Polychaeta Eunicida
Annelida Polychaeta Eunicida Oenoidae
Annelida Polychaeta Eunicida Onuphidae
Annelida Polychaeta Oweniida
Annelida Polychaeta Oweniida Oweniidae
我们不能只复制列,因为一旦我们到达新的门级别,复制下来的类会因一个缺失值而停止,订单可能有两个缺失值,等等...
我想挑战是我需要 Dataframe[[ j ]][ i-n ] 的值在我将通过应用的任何函数中。当 apply 将“x”传递给函数时,它是传递一个带有属性(如索引/行名)的对象还是只是传递值?
或者这是一种浪费的思路,如果我真的需要速度,请使用 for 循环并使用 rcpp。这是每年完成的数据框有大约 8,000 行和 13 列我们将对其进行操作。我不认为性能会是一个问题......但我们还没有尝试过。不知道为什么。
【问题讨论】:
-
您可以在组内“复制列”。在这种情况下,您可以按
cumsum(!is.na(DF$Family))或类似名称进行分组。包 data.table 和 dplyr 非常适合按组修改。如果您提供一个可重现的示例(例如,您的“数据可能看起来像”的dput),有人可以说明如何。此处指导:stackoverflow.com/a/28481250/1191259 -
为什么不使用树形结构呢?如果你有这么多公共条目,也许最好将它表示为一个集合,然后根据需要生成表值。
-
为什么Family列的第6行是空的?
-
RE 在 Family 列中的第 6 行:我们有一些以 Order name 结尾的值。它也会发生在类和门级别(一直到物种),
-
好吧,我不确定。在那种情况下,@jeremycg 的答案是更好的答案。