【问题标题】:Can I access the row index for a function used in apply()我可以访问 apply() 中使用的函数的行索引吗
【发布时间】:2015-10-16 19:33:14
【问题描述】:

我们需要填写一个分类数据表。我倾向于写太多的循环,我试图弄清楚如何使用apply() 来完成它。我正在扫描最后一列以找到一个非缺失值,然后在每列中填写其上方的值,仅在对角线上。因此,如果有 3 列,这将填充最后一列的值。我会为每个“更高的分类级别”或左侧的下一列重复它:

# fills in for Family-level taxonomy
for(i in nrows(DataFrame)){  
  if(is.na(DataFrame[[4]][i])) next
    else {
      DataFrame[[3]][i] <- DataFrame[[3]][i-1]
      DataFrame[[2]][i] <- DataFrame[[2]][i-2]
      DataFrame[[1]][i] <- DataFrame[[1]][i-3]
     }
}

# Repeat to fill in Order's higher taxonomy (Phylum and Class)
for(i in nrows(DataFrame)){  # fills in for Family
  if(is.na(DataFrame[[3]][i])) next
    else {
      DataFrame[[2]][i] <- DataFrame[[2]][i-2]
      DataFrame[[1]][i] <- DataFrame[[1]][i-3]
     }
}
# And again for each column to the left.

数据可能如下所示:

Phylum     Class       Order        Family  
Annelida   
           Polychaeta  
                       Eunicida
                                    Oenoidae
                                    Onuphidae     
                       Oweniida
                                    Oweniidae

然后,将针对该顺序中的每个独特家族、类别中的每个独特顺序以及门中的每个独特类别重复此操作。本质上,我们需要从其上方的下一个非缺失值开始填充每个非缺失值左侧的值。所以最终的结果是:

Phylum     Class       Order    Family  
Annelida   
Annelida  Polychaeta  
Annelida  Polychaeta  Eunicida
Annelida  Polychaeta  Eunicida Oenoidae
Annelida  Polychaeta  Eunicida Onuphidae     
Annelida  Polychaeta  Oweniida
Annelida  Polychaeta  Oweniida Oweniidae

我们不能只复制列,因为一旦我们到达新的门级别,复制下来的类会因一个缺失值而停止,订单可能有两个缺失值,等等...
我想挑战是我需要 Dataframe[[ j ]][ i-n ] 的值在我将通过应用的任何函数中。当 apply 将“x”传递给函数时,它是传递一个带有属性(如索引/行名)的对象还是只是传递值?

或者这是一种浪费的思路,如果我真的需要速度,请使用 for 循环并使用 rcpp。这是每年完成的数据框有大约 8,000 行和 13 列我们将对其进行操作。我不认为性能会是一个问题......但我们还没有尝试过。不知道为什么。

【问题讨论】:

  • 您可以在组内“复制列”。在这种情况下,您可以按cumsum(!is.na(DF$Family)) 或类似名称进行分组。包 data.table 和 dplyr 非常适合按组修改。如果您提供一个可重现的示例(例如,您的“数据可能看起来像”的dput),有人可以说明如何。此处指导:stackoverflow.com/a/28481250/1191259
  • 为什么不使用树形结构呢?如果你有这么多公共条目,也许最好将它表示为一个集合,然后根据需要生成表值。
  • 为什么Family列的第6行是空的?
  • RE 在 Family 列中的第 6 行:我们有一些以 Order name 结尾的值。它也会发生在类和门级别(一直到物种),
  • 好吧,我不确定。在那种情况下,@jeremycg 的答案是更好的答案。

标签: r apply


【解决方案1】:

这是我的方法,只要您的数据看起来像我猜测的那样:

library(tidyr)
library(dplyr)
data[data == ""] <- NA
data %>% fill(-Family) %>%
         filter(!is.na(Family)) 

输出:

    Phylum      Class    Order    Family
1 Annelida Polychaeta Eunicida  Oenoidae
2 Annelida Polychaeta Eunicida Onuphidae
3 Annelida Polychaeta Oweniida Oweniidae

如果你想要空行,你可以试试这个,它允许任意嵌套和取消嵌套:

data %>% fill(-Family) %>%
  filter(!is.na(Family)) %>%
  do(plyr::rbind.fill(unlist(lapply(1:nrow(.), function(z) lapply(1:4, function(xx) .[z,][1:xx])), recursive = FALSE))) %>%
  distinct()

     Phylum      Class    Order    Family
1  Annelida       <NA>     <NA>      <NA>
2  Annelida Polychaeta     <NA>      <NA>
3  Annelida Polychaeta Eunicida      <NA>
4  Annelida Polychaeta Eunicida  Oenoidae
5  Annelida Polychaeta Eunicida Onuphidae
6  Annelida Polychaeta Oweniida      <NA>
7  Annelida Polychaeta Oweniida Oweniidae
8  Annelida       blah     <NA>      <NA>
9  Annelida       blah     blah      <NA>
10 Annelida       blah     blah      blah

数据输入:

structure(list(Phylum = c("Annelida", NA, NA, NA, NA, NA, NA, 
NA, NA, NA), Class = c(NA, "Polychaeta", NA, NA, NA, NA, NA, 
"blah", NA, NA), Order = c(NA, NA, "Eunicida", NA, NA, "Oweniida", 
NA, NA, "blah", NA), Family = c(NA, NA, NA, "Oenoidae", "Onuphidae", 
NA, "Oweniidae", NA, NA, "blah")), .Names = c("Phylum", "Class", 
"Order", "Family"), row.names = c(NA, -10L), class = "data.frame")

【讨论】:

  • 谢谢 Jeremycg!!!空行很重要,有与这些值相关的代码。这似乎效果很好!
  • 提醒一下,这会产生每个“空”组合 - 它从压缩输出开始,然后从那里重新生成。如果您只想要数据中的“空”数据,请添加更多数据和解释(可能在一个新问题中)。此外,如果你有一些在 Order 完成(并且永远不会成为家人),它也会跳过这些。
【解决方案2】:

作为其他解决方案的替代方案,您还可以使用 zoo 包中的 na.locf 函数,该函数将 NA-values 替换为最后一个观察值(locf = 最后一个观察结转)。

# replace empty spaces with NA values
df[df == ""] <- NA

# use na.locf to replace the NA values    
library(zoo)
df <- na.locf(df)

这会导致:

> df
    Phylum      Class    Order    Family
1 Annelida       <NA>     <NA>      <NA>
2 Annelida Polychaeta     <NA>      <NA>
3 Annelida Polychaeta Eunicida      <NA>
4 Annelida Polychaeta Eunicida  Oenoidae
5 Annelida Polychaeta Eunicida Onuphidae
6 Annelida Polychaeta Oweniida Onuphidae
7 Annelida Polychaeta Oweniida Oweniidae

使用过的数据:

df <- structure(list(Phylum = structure(c(2L, 1L, 1L, 1L, 1L, 1L, 1L), .Label = c("", "Annelida"), class = "factor"), 
                     Class = structure(c(1L, 2L, 1L, 1L, 1L, 1L, 1L), .Label = c("", "Polychaeta"), class = "factor"), 
                     Order = structure(c(1L, 1L, 2L, 1L, 1L, 3L, 1L), .Label = c("", "Eunicida", "Oweniida"), class = "factor"), 
                     Family = structure(c(1L, 1L, 1L, 2L, 3L, 1L, 4L), .Label = c("", "Oenoidae", "Onuphidae", "Oweniidae"), class = "factor")), 
                .Names = c("Phylum", "Class", "Order", "Family"), class = "data.frame", row.names = c(NA, -7L))

【讨论】:

  • 我喜欢这里的简单,但有时我们需要一些空白……这绝对是工具箱里的东西。
【解决方案3】:

这是一种方法:

x <- matrix(rnorm(100), 10,10)
x <- cbind(1:nrow(x), x)

output <- apply(x, 1, function(i) {
  rowID <- as.numeric(i[1])
  x_orig <- unlist(i[-1])
  ## ... do some more stuff
  return(...something...)
})

【讨论】:

    猜你喜欢
    • 2011-04-28
    • 1970-01-01
    • 1970-01-01
    • 2018-03-23
    • 1970-01-01
    • 1970-01-01
    • 2016-11-07
    • 1970-01-01
    • 2011-10-18
    相关资源
    最近更新 更多