【问题标题】:Conditionally filling missing data in R有条件地填充 R 中的缺失数据
【发布时间】:2017-03-01 02:32:22
【问题描述】:

我有一个这样的数据框:

df$v1 = c('2', '', '', '', '3', '', '4', '', '', 'OT')

我想将此变量格式化为序数变量。然而,

df$v1 = as.ordered(df$v1)

结果:

Ord.factor w/ 5 levels ""<"2"<"3"<"4"<..: 2 1 1 1 3 1 4 1 1 5

R 将空单元格作为唯一条目读取,并将它们按顺序放在首位。我想做的是用其上方最后一个单元格的值(或根据您的方向在其左侧)填充空单元格以获取值。换句话说,这个向量实际上应该是这样的:

df$v1 = c('2', '2', '2', '2', '3', '3', '4', '4', '4', 'OT')

我相信此更改将允许我根据需要将变量格式化为序数。我已经尝试了 as.ordered()、as.factor()、levels = c('1'、'2'、'3'、'4'、'OT') 和ordered = TRUE 的所有组合。但是,R 在包含时不使用“级别”或“有序”参数; as.factor() 函数,不使用“级别”或“有序”参数,不会产生序数变量;并且, as.ordered() 函数解决了上述问题。因此,我相信在转换之前填充空单元格是最好的解决方案。最好的方法是什么?我知道我可以使用:

df$v1 = as.ordered(sub('^$', '2', df$v1))

用“2”填充空单元格;但是,每个单元格的替换值不同。我可以这样做:

df.a = df[1:4, ]
df.b = df[5:6, ]
df.c = df[7:9, ]
df.d = df[10, ]
df.a$v1 = as.ordered(sub('^$', '2', df.a$v1))
df.b$v1 = as.ordered(sub('^$', '3', df.b$v1))
df.c$v1 = as.ordered(sub('^$', '4', df.c$v1))

但是,我正在寻找一种自动执行此操作的方法。虽然以上 7 行会在这种情况下产生我想要的结果,但我还有许多其他表存在相同的格式问题;并且,对应于每个必要分区的行数对于每个分区是不同的。非常感谢您的帮助。

【问题讨论】:

    标签: r paste missing-data


    【解决方案1】:

    我们可以使用zoo中的na.locf在将空格("")转换为NA之后,用非NA的前一个相邻元素替换NA元素

    library(zoo)
    df$v1 <- with(df, na.locf(replace(v1, v1=="", NA)))
    df$v1
    #[1] "2"  "2"  "2"  "2"  "3"  "3"  "4"  "4"  "4"  "OT"
    

    这也可以用base R 完成,方法是创建一个分组变量,然后用ave 填充它

    with(df,  ave(v1, cumsum(v1!=""), FUN = function(x) x[1]))
    #[1] "2"  "2"  "2"  "2"  "3"  "3"  "4"  "4"  "4"  "OT"
    

    【讨论】:

      【解决方案2】:

      tidyr 包中的fill 怎么样?

      library(tidyr)
      
      df$v1 <- ifelse(df$v1 == '', NA, df$v1) # requires NA not empty string
      df <- df %>% fill(v1)
      

      【讨论】:

        猜你喜欢
        • 2014-04-22
        • 2022-01-17
        • 1970-01-01
        • 1970-01-01
        • 2022-11-30
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2019-11-27
        相关资源
        最近更新 更多