r for 循环回归 lm(y~x)答案

【问题标题】：r for loop for regression lm(y~x)r for 循环回归 lm(y~x)
【发布时间】：2015-11-20 18:59:41
【问题描述】：

例子：

df <- data.frame(A=1:5, B=2:6, C=3:7,D=4:8,E=5:9,F=6:10)

我想创建一个回归循环 lm(y,x) 使用像 y 列 1 和 2 以及像 x 其余列。

我的想法：

lmf <- function (y,x) {
                         f <- lm(y ~ x, data=df)
                         cbind(summary(f)$r.squared,summary(f)$coefficients)                  
                        }
 for(y in 1:3)
  {
    R<- apply(df[,3:6], 2, lmf(y,x)); R
  }

错误：model.frame.default 中的错误（公式 = y ~ x，数据 = df，drop.unused.levels = TRUE）：可变长度不同（为“x”找到）

我给出的这个例子非常小，但我的数据是 y 的 50 列和 x 的 300 列。

我想做的也一样：lm(df$1~df$3, data=df); lm(df$1~df$4, data=df),[...], lm(df$2~df$3, data=df)... 但以自动方式。此外，我想提取结果 $coefficients 和 $r.squared。

【问题讨论】：

你真的很遥远。您正确使用了 apply in，没有使用正确的函数参数，也没有正确使用 for 循环迭代器。 开始更简单
试试这个lapply(2:6, function(x) lm(df[ , 1] ~ df[, x], data = df ) )，它只是对子集有点棘手（它是一个嵌套列表），但它可以完成工作。
感谢您的回复，代码 lapply(2:6, function(x) lm(df[ , 1] ~ df[, x], data = df ) ) 给我回归函数使用一个固定的 y（在这种情况下是 col df[,1] 和不同的 x。我已经达到了这个目标。我想要更多的东西来增加使用不同 y 的可能性。

标签： r for-loop regression lm

【解决方案1】：

我有一个使用 dplyr、tidyr 和 broom 包的替代版本。这个想法是指定您要视为 Y 和 X 的变量。根据这些 Y 和 X 集创建 2 个不同的数据集。然后重塑数据集，以便能够将每个 Y 与一个 X 组合。最后，对每个组合运行线性回归并将模型输出保存为数据集。

# Check whether package name is installed...
check_package <- function(package_name) {
  if (!(package_name %in% rownames(installed.packages()))) {
    install.packages(package_name, dependencies = TRUE)
  }
}

check_package("broom")
check_package("dplyr")
check_package("tidyr")

library(dplyr)
library(broom)
library(tidyr)

# example dataset (picking 4 columns)
dt <- data.frame(mtcars) %>% select(mpg, disp, cyl, wt)

# specify which columns we want as y (dependent) and x (independent)
ynames <- c("disp","mpg")
xnames <- c("cyl","wt")

# create and reshape datasets
dt1 <- dt[,ynames]
dt1 <- gather(dt1,y,yvalue)

dt2 <- dt[,xnames]
dt2 <- gather(dt2, x, xvalue)



dt1 %>% 
  group_by(y) %>%                       # group by dependent variable
  do(data.frame(.,dt2)) %>%             # combine each y with all x
  group_by(y,x)%>%                      # get combinations of y and x to regress
  do(tidy(lm(yvalue~xvalue, data=.)))   # return lm output as dataframe


#      y   x        term    estimate  std.error statistic      p.value
# 1 disp cyl (Intercept) -156.608976 35.1805064 -4.451584 1.090157e-04
# 2 disp cyl      xvalue   62.598925  5.4693168 11.445474 1.802838e-12
# 3 disp  wt (Intercept) -131.148416 35.7165961 -3.671918 9.325668e-04
# 4 disp  wt      xvalue  112.478138 10.6353299 10.575896 1.222320e-11
# 5  mpg cyl (Intercept)   37.884576  2.0738436 18.267808 8.369155e-18
# 6  mpg cyl      xvalue   -2.875790  0.3224089 -8.919699 6.112687e-10
# 7  mpg  wt (Intercept)   37.285126  1.8776273 19.857575 8.241799e-19
# 8  mpg  wt      xvalue   -5.344472  0.5591010 -9.559044 1.293959e-10

【讨论】：

它看起来非常好!!!!.. 不幸的是我的 R 无法识别聚集功能.. 可能是这个问题："> library(dplyr) 附加包：'dplyr' 以下对象被“package:stats”屏蔽：过滤器以下对象被“package:base”屏蔽：intersect、setdiff、setequal、union"
收集来自 tidyr 包。你不应该有问题。你安装了那个包吗？还有其他方法可以完成该步骤。您可以使用其他整形命令。如果您需要其他选择，请告诉我。
@Giffredo ，我更新了解决方案，以便它安装包 + 依赖项。
我有几乎完全相同的问题，除了我想为我原始 dt 中的一堆不同组执行此操作。例如，假设mtcars 中的每个gear 进行回归。我应该问一个新问题，但如果它很容易添加..group_by(gear) 将不起作用。 @Stereo 有什么想法吗？
@LauraR 通过一个新问题会更容易，您可以在其中指定您想要获得的组合类型。

【解决方案2】：

我只是举例说明 iris 中的数值变量，但您可以将其更改为您想要使用的任何数据集。

我根据我更喜欢的名称来构造公式，而不是使用数字来索引您感兴趣的列。

我建议，

 result <- sapply(names(iris)[1 : 4], 
   function(x) { 
     lapply(names(iris)[1 : 4], 
            function(y) {
              if (x != y) {
                model <- lm(as.formula(paste0(y, "~", x)), iris) 
                return(list(x = x, 
                            y = y, 
                            r.squared = summary(model)$r.squared, 
                            coefficients =  summary(model)$coefficients))
              }
              })
            })


 result
 ## Sepal.Length Sepal.Width Petal.Length Petal.Width
 ## [1,] NULL         List,4      List,4       List,4     
 ## [2,] List,4       NULL        List,4       List,4     
 ## [3,] List,4       List,4      NULL         List,4     
 ## [4,] List,4       List,4      List,4       NULL       

 result[1, 2]
 ## $Sepal.Width
 ## $Sepal.Width$x
 ## [1] "Sepal.Width"
 ## 
 ## $Sepal.Width$y
 ## [1] "Sepal.Length"
 ## 
 ## $Sepal.Width$r.squared
 ## [1] 0.01382265
 ## 
 ## $Sepal.Width$coefficients
 ## Estimate Std. Error   t value     Pr(>|t|)
 ## (Intercept)  6.5262226  0.4788963 13.627631 6.469702e-28
 ## Sepal.Width -0.2233611  0.1550809 -1.440287 1.518983e-01

或者，您可以将结果存储在一个列表中，并编写一个单独的函数来遍历该列表以创建一个仅包含您感兴趣的信息的矩阵。

【讨论】：

这很好用！我根据我的目的调整了退货部分，没关系！谢谢