【发布时间】:2021-09-04 05:09:05
【问题描述】:
我有一个包含 10,000 行和 40 列的数据框。我正在尝试对这些行中的每一行应用一个函数。对于每一行,我期望返回一个标量,它是我在这个函数中计算的统计数据的值。以下是我到目前为止所做的;
library(sandwich)
# Creating example data #
nrows=10000
ncols=40
n1=20
n2=20
df=data.frame(t(replicate(nrows, rnorm(ncols, 100, 3))))
cov=data.frame(group=as.factor(rep(c(1,2),c(n1,n2))))
# Function to evaluate on each row of df #
get_est= function(x){
mod = lm(x~cov$group)
vcov = vcovHC(mod)
coef = as.numeric(mod$coefficients[2])
se = sqrt(as.numeric(diag(vcov)[2]))
stats = coef/se
return(stats)
}
# Applying above function to full data #
t1=Sys.time()
estimates=apply(df, 1, function(x) get_est(x))
t2=Sys.time()-t1
# Time taken by apply function
Time difference of 32.10623 secs
有没有办法显着减少对完整数据实施 get_est() 的时间?我需要在单个 df 上加快计算速度的主要原因是因为我还有 1000 个具有相同维度的数据帧,并且我必须将此函数同时应用于每个数据帧的每一行。为了说明,下面是我正在处理的更广泛的情况;
# Creating example data
set.seed(1234)
nrows = 10000
ncols = 40
n1 = 20
n2 = 20
df.list = list()
for(i in 1:1000){
df.list[[i]] = data.frame(t(replicate(nrows, rnorm(ncols, 100, 3))))
}
# Applying get_est() to each row and to each of data frame in df.list #
all.est = foreach(j = 1:length(df.list), .combine = cbind, .packages = 'sandwich') %dopar% {
cov=data.frame(group=as.factor(rep(c(1,2),c(n1,n2))))
est = apply(df.list[[j]], 1, function(x) get_est(x))
return(est)
}
即使在并行化之后也需要数小时才能完成。我的最终目标是显着缩短获取“all.est”的时间,该“all.est”将包含 10000 行和 1000 列,其中每列都有相应数据集的统计估计值。任何帮助深表感谢!!提前致谢!
【问题讨论】:
-
更适合stackoverflow。
-
请参阅 stats.stackexchange.com/help/on-topic 以明确要求不要在 SE 上交叉发布。
-
下面关于预计算部分结果的答案依赖于算法的细节,并且需要统计专业知识才能得出。将此与 SE 上关于并行化的答案进行比较,后者没有并且提供相对较小的性能改进,很明显,这个问题最好在这里回答。我投票决定重新开放。
-
非常感谢@ChrisHaug 的支持!! @Nick Cox 感谢您让我知道指导方针,在以后发布任何内容之前,我一定会牢记这一点。
-
嗨@Capri,我看到您对帖子进行了编辑,导致答案无效。这对网站非常有害!使答案无效意味着那些花费时间和精力来理解和回答您的问题的人的工作被否定了。当您意识到您的问题并不完全是您想知道的问题时,您应该提出一个新问题,该问题明确且针对您的问题。我将回滚您的编辑,以便您的问题以其原始形式陈述,并且 Ben 的回答是响应式的。请发布一个新问题。