【问题标题】:mcapply: all scheduled cores encountered errors in user codemcapply:所有计划的核心在用户代码中遇到错误
【发布时间】:2017-01-09 20:07:34
【问题描述】:

以下是我的代码。我正在尝试获取以.idat 结尾的所有文件(~20000)的列表,并使用函数illuminaio::readIDAT 读取每个文件。

library(illuminaio)
library(parallel)
library(data.table)

# number of cores to use
ncores = 8

# this gets all the files with .idat extension ~20000 files
files <- list.files(path = './',
                    pattern = "*.idat",
                    full.names = TRUE)

# function to read the idat file and create a data.table of filename, and two more columns
# write out as csv using fwrite
get.chiptype <- function(x)
{
  idat <- readIDAT(x)
  res <- data.table(filename = x, nSNPs = nrow(idat$Quants), Chip = idat$ChipType)
  fwrite(res, file.path = 'output.csv', append = TRUE)
}

# using mclapply call the function get.chiptype on all 20000 files.
# use 8 cores at a time
mclapply(files, FUN = function(x) get.chiptype(x), mc.cores = ncores)

读取和写入有关 1200 个文件的信息后,我收到以下消息:

Warning message:
In mclapply(files, FUN = function(x) get.chiptype(x), mc.cores = ncores) :
  all scheduled cores encountered errors in user code

我该如何解决?

【问题讨论】:

  • 什么是destdir和destfile
  • 它们只是将写入 data.table 的目录和文件名。我会删除它。
  • 你仍然得到错误?
  • 这可能不是问题,但我会警惕从并行进程追加到单个文件。我不是专家,但这似乎是一个麻烦的秘诀。你知道他们是否以某种方式锁定了文件,所以他们一次只能写一个?
  • 这不是问题。这些只是我的源文件和目标文件的路径。这就是并行处理的问题。

标签: r parallel-processing mclapply


【解决方案1】:

在某些情况下调用mclapply() 需要您指定一个允许多个随机数流的随机数生成器。 R 版本 2.14.0 实现了 Pierre L'Ecuyer 的多伪随机数生成器。

尝试在mclapply() 调用之前添加以下内容,并为“my.seed”预先指定值:

set.seed( my.seed, kind = "L'Ecuyer-CMRG" );

【讨论】:

    猜你喜欢
    • 2014-09-24
    • 1970-01-01
    • 2019-04-24
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2022-10-13
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多