【发布时间】:2011-12-05 19:00:43
【问题描述】:
我最近问了一个关于计算元素自身重复次数的问题(http://stackoverflow.com/questions/7669553/how-to-assign-number-of-repeats-to-dataframe-based- on-elements-of-an-identifying/7669607#7669607)在大型数据框中。我收到了一些非常有用的建议,这些建议适用于少数行,但现在需要在更大的级别上执行操作(超过 255k 行,使用 ddply 形成大约 100k“组”):
system.time( data <- ddply(data, "uid", function(x) {x$time <- 1:nrow(x); x}) ) #uid is the grouping variable, for which I need to count the number of repeats for output like
uid time
ny1 1
ny1 2
ny2 1
ny2 2
ny2 3
由于内存问题,尝试在较大的数据集上执行此操作会导致 R 阻塞。有什么明显的解决方案吗?在此先感谢(特别是耐心等待,因为我是一个新的“程序员”)。
【问题讨论】:
标签: r transform plyr large-data