【发布时间】:2017-11-14 09:40:33
【问题描述】:
我尝试结合两个不同的空间数据集创建汇总统计数据:一个大栅格文件和一个多边形文件。这个想法是获取每个多边形内栅格值的汇总统计数据。
由于栅格太大而无法一次处理,我尝试创建子任务并并行处理它们,即一次处理来自SpatialPolgyonsDataframe 的每个多边形。
代码运行良好,但是在大约 100 次交互后,我遇到了内存问题。这是我的代码和我打算做什么:
# session setup
library("raster")
library("rgdal")
# multicore processing.
library("foreach")
library("doSNOW")
# assign three clusters to be used for current R session
cluster = makeCluster(3, type = "SOCK",outfile="")
registerDoSNOW(cluster)
getDoParWorkers()# check if it worked
# load base data
r.terra.2008<-raster("~/terra.tif")
spodf.malha.2007<-readOGR("~/,"composed")
# bring both data-sets to a common CRS
proj4string(r.terra.2008)
proj4string(spodf.malha.2007)
spodf.malha.2007<-spTransform(spodf.malha.2007,CRSobj = CRS(projargs = proj4string(r.terra.2008)))
proj4string(r.terra.2008)==proj4string(spodf.malha.2007) # should be TRUE
# create a function to extract areas
function.landcover.sum<-function(r.landuse,spodf.pol){
return(table(extract(r.landuse,spodf.pol)))}
# apply it one one subset to see if it is working
function.landcover.sum(r.terra.2008,spodf.malha.2007[1,])
## parallel loop
# define package(s) to be use in the parallel loop
l.packages<-c("raster","sp")
# try a parallel loop for the first 6 polygons
l.results<-foreach(i=1:6,
.packages = l.packages) %dopar% {
print(paste("Processing Polygon ",i, ".",sep=""))
return(function.landcover.sum(r.terra.2008,spodf.malha.2007[i,]))
}
这里的输出是一个看起来像这样的列表。
l.结果
[[1]]
9 10
193159 2567
[[2]]
7 9 10 12 14 16
17 256 1084 494 67 15
[[3]]
3 5 6 7 9 10 11 12
2199 1327 8840 8579 194437 1061 1073 1834
14 16
222 1395
[[4]]
3 6 7 9 10 12 16
287 102 728 329057 1004 1057 31
[[5]]
3 5 6 7 9 12 16
21 6 20 495 184261 4765 28
[[6]]
6 7 9 10 12 14
161 161 386 943 205 1515
所以结果相当小,不应该是内存分配问题的根源。因此,在具有 >32.000 行的整个多边形数据集上的以下循环会在大约 100 次迭代后创建超过 8GB 的内存分配。
# apply the parallel loop on the whole dataset
l.results<-foreach(i=1:nrow(spodf.malha.2007),
.packages = l.packages) %dopar% {
print(paste("Processing Polygon ",i, ".",sep=""))
return(function.landcover.sum(r.terra.2008,spodf.malha.2007[i,]))
# gc(reset=TRUE) # does not resolve the problem
# closeAllConnections() # does not resolve the problem
}
我做错了什么?
编辑: 我尝试(如 cmets 中的建议)在内部循环中的每次迭代后删除对象,但它没有解决问题。我还尝试通过首先将对象传递给环境来解决多个数据导入的最终问题:
clusterExport(cl = cluster,
varlist = c("r.terra.2008","function.landcover.sum","spodf.malha.2007"))
没有大的变化。我的 R 版本在 linux 平台上是 3.4,所以据说第一个评论中的链接补丁也应该已经包含在这个版本中。我还按照第一条评论中的建议尝试了 parallel 包,但没有出现任何差异。
【问题讨论】:
-
我只能提供一些猜测/建议。猜测 1:
foreach在每次迭代时将数据r.terra.2008和spodf.malha.2007[i,]导出到每个核心。建议 1:尝试删除每个核心上的rm()对象,然后垃圾收集gc()。 (我不确定return一个值是否会让你退出你的%dopar%代码块。)建议2:看起来你还在使用doSNOW,我听说它没有得到很好的支持(传闻)。我会尝试最新版本的library(parallel)。也请查看此链接https://github.com/HenrikBengtsson/Wishlist-for-R/issues/27。 -
以上都不适合我(不幸的是)。见我上面的编辑。
-
这个其实和raster包有关。如果有人遇到相关问题,这里有一些帮助:stackoverflow.com/questions/25426405/…
标签: r memory foreach parallel-processing raster