【问题标题】:selecting n consequent grouped variables and apply the function in r选择 n 个后续分组变量并在 r 中应用函数
【发布时间】:2012-07-31 14:03:17
【问题描述】:

这是示例数据:

 myd <- data.frame (matrix (sample (c("AB", "BB", "AA"), 100*100, 
 replace = T), ncol = 100))
 variablenames= paste (rep (paste ("MR.", 1:10,sep = ""), 
  each = 10), 1:100, sep = ".")
  names(myd) <- variablenames

每个变量都有一个组,这里我们有十个组。因此,该数据框中每个变量的组索引如下:

group <- rep(1:10, each = 10)

因此变量名和组

 data.frame (group, variablenames)
    group variablenames
1       1        MR.1.1
2       1        MR.1.2
3       1        MR.1.3
4       1        MR.1.4
5       1        MR.1.5
6       1        MR.1.6
7       1        MR.1.7
8       1        MR.1.8
9       1        MR.1.9
10      1       MR.1.10
11      2       MR.2.11
 <<<<<<<<<<<<<<<<<<<<<<<<
100    10     MR.10.100

每个组意味着以下步骤应分别应用于变量组。

我有更长的功能可以工作以下是简短的例子:

函数同时考虑两个变量

myfun <- function (x1, x2) {
out <- NULL
out <-  paste(x1, x2, sep=":")
# for other steps to be performed here
return (out)
}
# group 1
myfun (myd[,1], myd[,2]); myfun (myd[,3], myd[,4]); myfun (myd[,5], myd[,6]); 
myfun (myd[,7], myd[,8]); myfun (myd[,9], myd[,10]);
# group 2 
 myfun (myd[,11], myd[,12]); myfun (myd[,13], myd[,14]); .......so on to group 10 ;

这样我需要走变量 1:10(即在第一组执行上述操作),然后是 11:20(第二组)。在这种情况下,组无关紧要,每组中的变量数可与一次采用(考虑)的变量数(10)(2)整除。

但是,在以下示例中,一次取 3 个变量 - 每组中的总变量数 (3),10/3,最后剩下一个变量。

函数同时考虑三个变量。

myfun <- function (x1, x2, x3) {
out <- NULL
out <-  paste(x1, x2, x3, sep=":")
# for other steps to be performed here
return (out)
}
# for group 1
myfun (myd[,1], myd[,2], myd[,3])
myfun (myd[,4], myd[,5], myd[,6])
myfun (myd[,7], myd[,8], myd[,9])  
 # As there one variable left before proceedomg to second group, the final group will 
have 1 extra variable  
myfun (myd[,7], myd[,8], myd[,9],myd[,10] )
 # for group 2   
  myfun (myd[,11], myd[,12], myd[,13])
  # and to the end all groups and to end of the file.

我想通过用户定义的 n 个同时保留的变量来循环这个过程,其中 n 可能是 1 到每个组中的最大变量数。

编辑:只是说明过程的插图(仅演示了第 1 组和第 2 组):

【问题讨论】:

  • 虽然没有明确的答案只是一个想法 - 你可以创建变量名的名称namesmat

标签: r variables loops


【解决方案1】:

创建一个函数,将您的数据拆分为适当的列表,并将您想要的任何函数应用于您的列表。

此函数将创建您的 second 分组变量。 (您的问题中提供了第一个分组变量(group);如果您更改该值,您还应该在下面的函数中更改DIM。)

myfun = function(LENGTH, DIM = 10) {
  PATTERN = rep(1:(DIM %/% LENGTH), each=LENGTH)
  c(PATTERN, rep(max(PATTERN), DIM %% LENGTH))
}

以下是我们将拆分myd 的组。在此示例中,我们首先将 myd 拆分为 10 列组,然后将每个组拆分为 3 列组,最后一组除外,它将有 4 列 (3+3+4 = 10)。

注意:要更改分组所依据的列数,例如一次按两个变量分组,请将 group2 = rep(myfun(3), length.out=100) 更改为 group2 = rep(myfun(2), length.out=100).

group <- rep(1:10, each = 10)
# CHANGE THE FOLLOWING LINE ACCORDING
# TO THE NUMBER OF GROUPS THAT YOU WANT
group2 = rep(myfun(3), length.out=100)

这是拆分过程。我们首先仅按名称进行拆分,并将这些名称与myd 匹配以创建data.frames 的列表。

# Extract group names for matching purposes
temp = split(names(myd), list(group, group2))

# Match the names to myd
temp = lapply(1:length(temp),
              function(x) myd[, which(names(myd) %in% temp[[x]])])

# Extract the names from the list for future reference
NAMES = lapply(temp, function(x) paste(names(x), collapse="_"))

现在我们有了一个列表,我们可以做很多有趣的事情。您想将列粘贴在一起,用冒号分隔。以下是你的做法。

# Do what you want with the list
# For example, to paste the columns together:
FINAL = lapply(temp, function(x) apply(x, 1, paste, collapse=":"))
names(FINAL) = NAMES

这是一个输出示例:

lapply(FINAL, function(x) head(x, 5))
# $MR.1.1_MR.1.2_MR.1.3
# [1] "AA:AB:AB" "AB:BB:AA" "BB:AB:AA" "BB:AA:AB" "AA:AA:AA"
# 
# $MR.2.11_MR.2.12_MR.2.13
# [1] "BB:AA:AB" "BB:AB:BB" "BB:AA:AA" "AB:BB:AA" "BB:BB:AA"
# 
# $MR.3.21_MR.3.22_MR.3.23
# [1] "AA:AB:BB" "BB:AA:AA" "AA:AB:BB" "AB:AA:AA" "AB:BB:BB"
# 
# <<<<<<<------SNIP------>>>>>>>>
#
# $MR.1.4_MR.1.5_MR.1.6
# [1] "AB:BB:AA" "BB:BB:BB" "AA:AA:AA" "BB:BB:AB" "AB:AA:AA"
# 
# $MR.2.14_MR.2.15_MR.2.16
# [1] "AA:BB:AB" "BB:BB:BB" "BB:BB:AB" "AA:BB:AB" "BB:BB:BB"
# 
# $MR.3.24_MR.3.25_MR.3.26
# [1] "AA:AB:BB" "BB:AA:BB" "BB:AB:BB" "AA:AB:AA" "AB:AA:AA"
# 
# <<<<<<<------SNIP------>>>>>>>>
#
# $MR.1.7_MR.1.8_MR.1.9_MR.1.10
# [1] "AB:AB:AA:AB" "AB:AA:BB:AA" "BB:BB:AA:AA" "AB:BB:AB:AA" "AB:BB:AB:BB"
# 
# $MR.2.17_MR.2.18_MR.2.19_MR.2.20
# [1] "AB:AB:BB:BB" "AB:AB:BB:BB" "AB:AA:BB:BB" "AA:AA:AB:AA" "AB:AB:AB:AB"
# 
# $MR.3.27_MR.3.28_MR.3.29_MR.3.30
# [1] "BB:BB:AB:BB" "BB:BB:AA:AA" "AA:BB:AB:AA" "AA:BB:AB:AA" "AA:AB:AA:BB"
# 
# $MR.4.37_MR.4.38_MR.4.39_MR.4.40
# [1] "BB:BB:AB:AA" "AA:BB:AA:BB" "AA:AA:AA:AB" "AB:AA:BB:AB" "BB:BB:BB:BB"
# 
# $MR.5.47_MR.5.48_MR.5.49_MR.5.50
# [1] "AB:AA:AA:AB" "AB:AA:BB:AA" "AB:BB:AA:AA" "AB:BB:BB:BB" "BB:AA:AB:AA"
# 
# $MR.6.57_MR.6.58_MR.6.59_MR.6.60
# [1] "BB:BB:AB:AA" "BB:AB:BB:AA" "AA:AB:AB:BB" "BB:AB:AA:AB" "AB:AA:AB:BB"
# 
# $MR.7.67_MR.7.68_MR.7.69_MR.7.70
# [1] "BB:AB:BB:AA" "BB:AB:BB:AA" "BB:AB:BB:AB" "AB:AA:AA:AA" "AA:AA:AA:AB"
# 
# $MR.8.77_MR.8.78_MR.8.79_MR.8.80
# [1] "AA:AB:AA:AB" "AB:AA:AB:BB" "BB:BB:AA:AB" "AB:BB:BB:BB" "AB:AA:BB:AB"
# 
# $MR.9.87_MR.9.88_MR.9.89_MR.9.90
# [1] "AA:BB:AB:AA" "AA:AB:BB:BB" "AA:BB:AA:BB" "AB:AB:AA:BB" "AB:AA:AB:BB"
# 
# $MR.10.97_MR.10.98_MR.10.99_MR.10.100
# [1] "AB:AA:BB:AB" "AB:AA:AB:BB" "BB:AB:AA:AA" "BB:BB:AA:AA" "AB:AB:BB:AB"

【讨论】:

    【解决方案2】:

    我建议重新编码 myfun 以获取矩阵并使用 plotrix 包中的 pasteCols。

    library(plotrix)
    
    myfun = function(x){
        out = pasteCols(t(x), sep = ":")
        # some code
        return(out)
    }  
    

    然后,这很容易:对于每个组,计算您在调用 myfun 时要使用的第一列和最后一列的索引,使用模数和整数除法:

    rubiques_solution = function(group, myd, num_to_group){
       # loop over groups
       for(g in unique(group)){
          var_index = which(group == g)
          num_var = length(var_index)
    
          # test to make sure num_to_group is smaller than the number of variable
          if(num_var < num_to_group){
             stop("num_to_group > number of variable in at least one group")
             }
    
          # number of calls to myfun
          num_calls = num_var %/% num_to_group
    
          # the idea here is that we create the first and last column
          # in which we are interested for each call
          first = seq(from = var_index[1], by = num_to_group, length = num_calls)
          last = first + num_to_group -1
          # the last call will contain possibly more varialbe, we adjust here:
          last[length(last)] = last[length(last)] + (num_var %% num_to_group)
    
          for(i in num_calls){
             # maybe do something with the return value of myfun ?
             myfun(myd[,first[i]:last[i]])
          }
       }  
    }  
    
    group = rep(1:10, each = 10) # same than yours
    myd = data.frame (matrix (sample (c("AB", "BB", "AA"), 100*100, replace = T), ncol = 100)) # same than yours
    num_to_group = 2 # this is your first example
    rubiques_solution(group, myd, num_to_group)
    

    希望我能正确理解问题。

    【讨论】:

    • Rubique,你能举例说明你的函数是如何应用的吗?
    • 你不会看到输出,因为在你的例子中你似乎只是调用 myfun,所以这就是我所做的,如果你只需要像其他答案一样放入一个列表(或在data.frame中......同样的事情)
    猜你喜欢
    • 2021-05-21
    • 2015-09-10
    • 2021-09-08
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-03-02
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多