【发布时间】:2020-07-02 11:00:15
【问题描述】:
A 嘿,我有一个庞大的数据集,我正试图在 R 中传播,但我一直在用尽内存,所以试图分解它并编写一段有效的代码来循环下面的列表示例结构。我知道#这对于了解这些功能并感谢任何建议的人来说非常容易。
rs <- split(r,1:3)
然后按如下方式展开列表,但这样做效率很高,因为可能会有大量列表
rs$'1' <- rs$'1' %>% spread(movieId, resids)
rs$'2' <- rs$'2' %>% spread(movieId, resids)
rs$'3' <- rs$'3' %>% spread(movieId, resids)
【问题讨论】:
-
你的数据集有多大?
-
大约有 1000 万行,我猜传播函数相当昂贵
-
残差有 7,198,397 个不同的值
-
您能在问题中添加两件事吗? (i)
object.size(r)和 (ii)length(unique(r$movieId))? -
抱歉,我错了不是
resid,而是movieId,这与不同的值有关。 (我会删除上面的评论)