【问题标题】:Recoding variables in a list重新编码列表中的变量
【发布时间】:2015-03-16 00:50:45
【问题描述】:

我想我是本着“没有问题太容易”的精神写的,我只是一个普通的 Stata 用户社会科学家,第一次接近 R 并面临着无尽的夜晚......请原谅!

我正在处理来自 20 个国家/地区的比较数据集(大约 20,000 个观察值,各国之间相当平衡)。 我必须执行一组计算量非常大的 MCMC 模拟,因此我决定将 df 拆分为包含 20 个(特定于国家/地区)df 的列表,然后继续使用lapply()。 (我读到在 R 上避免 for 循环更有效,对吧?)

我最直接的问题是我无法预处理列表中包含的各种 df 中的元素。特别是,我必须重新编码一组 15 个变量,这些变量是从 0 到 10 的整数,其中包括缺失案例的 SPSS 典型值:77 88, 89, 99, 999。我想将这些值重新编码为NA,然后做一些额外的转换:以 0 为中心,定义两个 df 对象TTT,并使用两组不同的变量,稍后在模拟中使用。必须在构成“主”列表“ees2009split”的 20 个不同国家/地区特定列表元素中重复此任务。

ees2009split <- vector("list", 20)
ees2009split <- split(ees2009, ees2009$t102) # t102 is the country identifier
names(ees2009split) <- country.names[1:2]    # rename list objects with country names

这是我的清单(抱歉,我无法提供可重现的示例):

    > str(ees2009split)
List of 20
 $         Austria :'data.frame':   1000 obs. of  17 variables:
  ..$ t102   : int [1:1000] 1040 1040 1040 1040 1040 1040 1040 1040 1040 1040 ...
  ..$ q46    : int [1:1000] 77 2 5 5 5 77 5 5 5 77 ...
  ..$ q47_p1 : int [1:1000] 77 3 5 4 77 77 5 1 89 77 ...
  ..$ q47_p2 : int [1:1000] 77 8 7 6 77 77 5 6 5 77 ...
  ..$ q47_p3 : int [1:1000] 77 10 10 9 77 77 5 7 7 77 ...
  ..$ q47_p4 : int [1:1000] 77 10 9 8 77 77 5 7 4 77 ...
  ..$ q47_p5 : int [1:1000] 77 2 5 3 77 77 5 1 3 77 ...
  ..$ q47_p6 : int [1:1000] 77 4 89 5 77 77 89 2 89 77 ...
  ..$ q47_p7 : int [1:1000] 77 3 89 6 77 77 89 3 5 77 ...
  ..$ q47_p8 : int [1:1000] 77 1 0 0 77 77 5 0 89 77 ...
  ..$ q47_p9 : int [1:1000] 99 99 99 99 99 99 99 99 99 99 ...
  ..$ q47_p10: int [1:1000] 99 99 99 99 99 99 99 99 99 99 ...
  ..$ q47_p11: int [1:1000] 99 99 99 99 99 99 99 99 99 99 ...
  ..$ q47_p12: int [1:1000] 99 99 99 99 99 99 99 99 99 99 ...
  ..$ q47_p13: int [1:1000] 99 99 99 99 99 99 99 99 99 99 ...
  ..$ q47_p14: int [1:1000] 99 99 99 99 99 99 99 99 99 99 ...
  ..$ q47_p15: int [1:1000] 99 99 99 99 99 99 99 99 99 99 ...
 $         Belgium :'data.frame':   1002 obs. of  17 variables:
  ..$ t102   : int [1:1002] 1056 1056 1056 1056 1056 1056 1056 1056 1056 1056 ...
  ..$ q46    : int [1:1002] 5 0 77 88 77 88 5 2 77 5 ...
  ..$ q47_p1 : int [1:1002] 88 5 77 77 6 77 5 77 5 77 ...
  ..$ q47_p2 : int [1:1002] 88 10 77 77 8 77 89 77 10 77 ...
  ..$ q47_p3 : int [1:1002] 88 7 77 77 5 77 3 77 0 77 ...
  ..$ q47_p4 : int [1:1002] 88 10 77 77 10 77 10 77 10 77 ...
  ..$ q47_p5 : int [1:1002] 88 0 77 77 4 77 4 77 5 77 ...
  ..$ q47_p6 : int [1:1002] 99 99 77 99 99 77 99 77 99 99 ...
  ..$ q47_p7 : int [1:1002] 99 99 77 99 99 77 99 77 99 99 ...
  ..$ q47_p8 : int [1:1002] 99 99 88 99 99 77 99 77 99 99 ...
  ..$ q47_p9 : int [1:1002] 99 99 77 99 99 77 99 77 99 99 ...
  ..$ q47_p10: int [1:1002] 99 99 99 99 99 99 99 99 99 99 ...
  ..$ q47_p11: int [1:1002] 99 99 99 99 99 99 99 99 99 99 ...
  ..$ q47_p12: int [1:1002] 99 99 99 99 99 99 99 99 99 99 ...
  ..$ q47_p13: int [1:1002] 99 99 99 99 99 99 99 99 99 99 ...
  ..$ q47_p14: int [1:1002] 99 99 99 99 99 99 99 99 99 99 ...
  ..$ q47_p15: int [1:1002] 99 99 99 99 99 99 99 99 99 99 ...

等等...直到第 20 个国家/地区。

我定义了两个用lapply()调用的函数,函数rename()recode()

rename <- function(x) {
    # renaming
    names(x) <- gsub("q46", "lr.self", names(x))
    names(x) <- gsub("q47_p", "lr.p", names(x))
    return(x)
}       

到目前为止一切顺利:

> processed.dat <- lapply(ees2009split, renaming)
> str(processed.dat)
List of 20
 $         Austria :'data.frame':   1000 obs. of  17 variables:
  ..$ t102   : int [1:1000] 1040 1040 1040 1040 1040 1040 1040 1040 1040 1040 ...
  ..$ lr.self: int [1:1000] 77 2 5 5 5 77 5 5 5 77 ...
  ..$ lr.p1  : int [1:1000] 77 3 5 4 77 77 5 1 89 77 ...
# I omit the rest...

使用重新编码功能,我却很难:

recoding <- function(x){
        # recode missing values
        x$lr.self[lr.self %in% c(77, 88, 89, 98, 99, 999)] <- NA
        x$lr.p1[lr.p1 %in% c(77, 88, 89, 98, 99, 999)] <- NA
        x$lr.p2[lr.p2 %in% c(77, 88, 89, 98, 99, 999)] <- NA
        x$lr.p3[lr.p3 %in% c(77, 88, 89, 98, 99, 999)] <- NA
        x$lr.p4[lr.p4 %in% c(77, 88, 89, 98, 99, 999)] <- NA
        x$lr.p5[lr.p5 %in% c(77, 88, 89, 98, 99, 999)] <- NA
        x$lr.p6[lr.p6 %in% c(77, 88, 89, 98, 99, 999)] <- NA
        x$lr.p7[lr.p7 %in% c(77, 88, 89, 98, 99, 999)] <- NA
        x$lr.p8[lr.p8 %in% c(77, 88, 89, 98, 99, 999)] <- NA
        x$lr.p9[lr.p9 %in% c(77, 88, 89, 98, 99, 999)] <- NA
        x$lr.p10[lr.p10 %in% c(77, 88, 89, 98, 99, 999)] <- NA
        x$lr.p11[lr.p11 %in% c(77, 88, 89, 98, 99, 999)] <- NA
        x$lr.p12[lr.p12 %in% c(77, 88, 89, 98, 99, 999)] <- NA
        x$lr.p13[lr.p13 %in% c(77, 88, 89, 98, 99, 999)] <- NA
        x$lr.p14[lr.p14 %in% c(77, 88, 89, 98, 99, 999)] <- NA
        x$lr.p15[lr.p15 %in% c(77, 88, 89, 98, 99, 999)] <- NA

        x$T <- cbind(lr.self, lr.p1, lr.p2, lr.p3, lr.p4, lr.p5, lr.p6, lr.p7, lr.p8, lr.p9, lr.p10, lr.p11, lr.p12, lr.p13, lr.p14, lr.p15) 
        T <- T - 5      # centering on 0

        lrself.resc <- T[,1]    # rescaled lr.self
        TT <- T[,-1]            # whole matrix rescaled

        N <- nrow(TT)
        q <- ncol(TT)
        z <- TT
        x$dat.list <- list(lr.self=lr.self, lr.p1=lr.p1, lr.p2=lr.p2, lr.p3=lr.p3, lr.p4=lr.p4, lr.p5=lr.p5, lr.p6=lr.p6, lr.p7=lr.p7, lr.p8=lr.p8, lr.p9=lr.p9, lr.p10=lr.p10, lr.p11=lr.p11, lr.p12=lr.p12, lr.p13=lr.p13, lr.p14=lr.p14, lr.p15=lr.p15, T=T, TT=TT, lrself.resc, N=N, q=q, z=z)
        return(x$dat.list)
}

这是输出:

> processed.dat <- lapply(ees2009split, recoding)
Error in match(x, table, nomatch = 0L) : object 'lr.self' not found
Called from: FUN(X[[1L]], ...)
Browse[1]> 

1) 我应该如何重新编码包含在lapply() 列表中的数据框中的变量?更广泛地说,如何在函数中的国家 df 内插入对象? 2)在更一般的立场上,这种处理方式是否正确?拆分,定义特定任务的函数,用lapply()调用,最后重新组合?

感谢您的任何建议或评论。 安德烈亚

【问题讨论】:

  • 如果我处于你的位置,我会首先将欧洲选举研究数据转换为整洁的格式,然后处理 NA,然后进行规范化。除非您在具有 4GB RAM 的笔记本电脑上运行它,或者有一些超出计算限制的理由这样做,否则我认为您不需要拆分数据。
  • 告诉你用于导入数据的函数NA是如何编码的,它会为你处理这些。
  • 关于recode,而不是重复val &lt;- c(77, 88, 89, 98, 99, 999); lapply(processed.dat, function(x) {x[] &lt;-lapply(x, function(.x) {.x[.x %in% val] &lt;- NA;.x}); x})
  • @SerbanTanasa:感谢您的建议。我可以轻松地在 Stata 中预处理数据,保存 20 df 并在 R 上创建一个列表。但是在 R 中的列表中重新编码真的那么复杂吗?如果可能的话,我宁愿学习一些东西并提供一个单程序复制脚本......@Roland:我正在使用read.dta()。我找不到在help(read.dta) 上为 mv 引入显式值的方法。 This 可能对与 read.table 处于相同条件的人有用。
  • @akrun:重新编码可以调整您的代码(ees2009split[['Austria']] 和其他列表元素是df,而不是列表。我在匿名函数中添加了x&lt;-as.list(x)。有人可能会更多信息丰富?这是要走的路吗?lapply() 的链?再次感谢。

标签: r list function lapply recode


【解决方案1】:

这应该用于数据清理。我使用库gdata,您可能必须使用以下命令安装它:install.packages('gdata')。在其中你会发现一个最有用的函数,即unknownToNA()。请参见下面的示例。 正如我所说,我更喜欢在拆分数据之前进行清理。我也冒昧地使用了EES 2009 dataset

library(foreign)
library(gdata)
#setwd("/Data/sample")
#list.files()
mydata <- read.dta("ZA5055_v1-1-0.dta")
keepvars <- grep("^q46|^q47|^t102",names(mydata), value=T)
mydata2 <- subset(mydata, select=keepvars)
rm(mydata)
str(mydata2)
head(mydata2)
naval <- c(77, 88, 89, 99, 999)
mydata3 <- unknownToNA(mydata2, unknown=list(.default=naval))
head(mydata3)

#      t102 q46 q47_p1 q47_p2 q47_p3 q47_p4 q47_p5 q47_p6 q47_p7 q47_p8 q47_p9 q47_p10 q47_p11 q47_p12 q47_p13
# 1 Austria  NA     NA     NA     NA     NA     NA     NA     NA     NA     NA      NA      NA      NA      NA
# 2 Austria   2      3      8     10     10      2      4      3      1     NA      NA      NA      NA      NA
# 3 Austria   5      5      7     10      9      5     NA     NA      0     NA      NA      NA      NA      NA
# 4 Austria   5      4      6      9      8      3      5      6      0     NA      NA      NA      NA      NA
# 5 Austria   5     NA     NA     NA     NA     NA     NA     NA     NA     NA      NA      NA      NA      NA
# 6 Austria  NA     NA     NA     NA     NA     NA     NA     NA     NA     NA      NA      NA      NA      NA
# q47_p14 q47_p15
# 1      NA      NA
# 2      NA      NA
# 3      NA      NA
# 4      NA      NA
# 5      NA      NA
# 6      NA      NA

如果您出于某种原因更喜欢先拆分,请继续:

    library(gdata)
    ees2009split <- split(mydata2, mydata2$t102)
    ees2009split <- unknownToNA(ees2009split, unknown=list(.default=list(naval)))
    head(ees2009split[[1]])


     t102 q46 q47_p1 q47_p2 q47_p3 q47_p4 q47_p5 q47_p6 q47_p7 q47_p8 q47_p9 q47_p10 q47_p11 q47_p12 q47_p13
1 Austria  NA     NA     NA     NA     NA     NA     NA     NA     NA     NA      NA      NA      NA      NA
2 Austria   2      3      8     10     10      2      4      3      1     NA      NA      NA      NA      NA
3 Austria   5      5      7     10      9      5     NA     NA      0     NA      NA      NA      NA      NA
4 Austria   5      4      6      9      8      3      5      6      0     NA      NA      NA      NA      NA
5 Austria   5     NA     NA     NA     NA     NA     NA     NA     NA     NA      NA      NA      NA      NA
6 Austria  NA     NA     NA     NA     NA     NA     NA     NA     NA     NA      NA      NA      NA      NA
  q47_p14 q47_p15
1      NA      NA
2      NA      NA
3      NA      NA
4      NA      NA
5      NA      NA
6      NA      NA

恐怕我对您的后续步骤了解得不够深入,无法提供进一步帮助。 但通常对于缩放,我使用scale 函数,它以 0 为中心并进行规范化:

head(scale(mydata3[,-1]))

【讨论】:

  • 谢谢@Serban-tanasa,这很有效并且简化了很多。我需要拆分,因为我必须进行逐个国家的分析。因此,一种替代方法是在国家/地区使用 27 个单独的代码块,每个 df 一个。在 Stata 中,我会相应地使用 27 个数据集运行 for 循环。在 R 上,就我一直在阅读的内容而言,lapply() 在包含 27df 的列表中的工作效率更高。
  • @R.newby 您总是可以在完成清洁后拆分它。除非要按国家/地区进行标准化,否则您也可以在拆分之前进行。 PS:for循环没有错。代码的重点是 a) 让它工作 b) 让你了解它的作用,并且只有一个遥远的地方 c) 高效。
  • @R.new 来自 Google “split-apply-combine”。您通常不需要使用 splitlapply,因为它们是更方便和更有效的替代方案(请参阅包 dplyr 或 data.table)。
  • @SerbanTanasa 这个(unknownToNA)非常有用(+1)
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多