嵌套 for 循环的向量化答案

【问题标题】：Vectorization of nested for loops嵌套 for 循环的向量化
【发布时间】：2013-03-03 16:13:56
【问题描述】：

我正在尝试使用apply/mapply/lapply/sapply 或任何其他方式来矢量化我的嵌套 for 循环代码以减少运行时间。我的代码如下：

for (i in 1:dim){
 for (j in i:dim){ 
  if(mydist.fake[i,j] != d.hat.fake[i,j]){
    if((mydist.fake[i,j]/d.hat.fake[i,j] > 1.5)|(d.hat.fake[i,j]/mydist.fake[i,j]>1.5)){
        data1 = cbind(rowNames[i],rowNames[j], mydist.fake[i,j], d.hat.fake[i,j], 1)
        colnames(data1) = NULL
        row.names(data1) = NULL
        data = rbind(data, data1)
    }else{
        data1 = cbind(rowNames[i],rowNames[j], mydist.fake[i,j], d.hat.fake[i,j], 0)
        colnames(data1) = NULL
        row.names(data1) = NULL
        data = rbind(data, data1)
        }
      }
    }  
  }
write.table(data, file = "fakeTest.txt", sep ="\t", col.names = FALSE, row.names = FALSE)

rowNames 是所有数据点的行名向量
data 是一个数据框
mydist.fake 和 d.hat.fake 是距离矩阵（对角线为零，上下三角形的值相同），因此对下三角形的横向感兴趣（也保留对角线的值）。
两个矩阵的维度相同。

我面临的主要问题是j 循环的矢量化，其中j 被初始化为i。

【问题讨论】：

欢迎堆栈溢出。 Reproducible examples 是要走的路。在您的示例中，rowNames 是什么？
这类问题确实需要样本数据。

标签： r vectorization apply sapply

【解决方案1】：

您的代码的矢量化版本是：

dist1 <- mydist.fake
dist2 <- d.hat.fake

data <- data.frame(i  = rowNames[row(dist1)[lower.tri(dist1)]],
                   j  = rowNames[col(dist1)[lower.tri(dist1)]],
                   d1 = dist1[lower.tri(dist1)],
                   d2 = dist2[lower.tri(dist2)])

data <- transform(data, outcome = d1/d2 > 1.5 | d2/d1 > 1.5)

我使用以下示例数据成功测试了它：

X           <- matrix(runif(200), 20, 10)
Y           <- matrix(runif(200), 20, 10)
rowNames    <- paste0("var", seq_len(nrow(X)))
mydist.fake <- as.matrix(dist(X))
d.hat.fake  <- as.matrix(dist(Y))

【讨论】：

非常感谢.. 速度很快，很棒.. 至少今天学到了一些东西.. 再次感谢！