R中大数据的计数算法答案

【问题标题】：Counting algorithm for big data in RR中大数据的计数算法
【发布时间】：2013-09-12 18:35:28
【问题描述】：

我有一个包含近 100 万行（事务）和 2600 列（项目）的大数据框。数据集中的值是 1 和 NA。所有值的数据类型都是因子。我想在数据框的末尾添加一个新列，该列显示每行中所有 1 的总和。

这是我写的 R 代码：

for(i in 1:nrow(dataset){
    counter<-0
    for(j in 1:ncol(dataset){
        if(!is.na(dataset[i,j])){
           counter<- counter+1
         }
     }
     dataset[i,ncol(dataset)+1]<-counter 
}

但是它在R studio中运行已经很长时间了，因为运行时间是O(n^2)。我想知道是否有其他方法可以做到这一点或改进这个算法？（机器有 80Gb 内存）

【问题讨论】：

如果您的数据只有 1 并且 NA 使用矩阵（或 data.table）而不是数据框。看看?apply，或者如果太慢，Rcpp。

标签： r algorithm bigdata counting

【解决方案1】：

正如@joran 建议的那样，使用矩阵（数字，而不是因子）会更好，只需这样做：

rowSums(your_matrix, na.rm = T)

【讨论】：

【解决方案2】：

eddi answer 在您的情况下是最好的，更通用的解决方案是矢量化代码（意味着：一次对所有行进行操作）：

counter <- rep(0, nrow(dataset))
for(j in 1:ncol(dataset)) {
     counter <- counter + !is.na(dataset[[j]])
}
dataset$no_of_1s <- counter

注意：在您的代码中：

dataset[i,ncol(dataset)+1]<-counter

您为每一行创建新列（因为每一步都会多一列），所以最终的 data.frame 将有 1M 行和 1M 列（所以它不适合您的记忆）。

另一种选择是使用Reduce

dataset$no_of_1s <- Reduce(function(a,b) a+!is.na(b), dataset, init=integer(nrow(dataset)))

【讨论】：