【问题标题】:Problem with import of multiVCF by readData from "popgenome" R package从“popgenome”R包中通过readData导入multiVCF的问题
【发布时间】:2021-03-09 09:00:44
【问题描述】:

我正在尝试使用包“popgenome”和“readData”将 multiVCF 文件(使用 GATK 创建,约 80 个人 (4.3Gb))导入 R。不幸的是,导入总是中止并显示错误消息:“R 遇到致命错误,会话终止”。对于较小的数据集,它可以正常工作。

我也尝试使用压缩的 vcfs (bgzip) - 对我也不起作用。 我错过了什么吗?我的电脑是否没有足够的计算资源?

有没有人有类似的经历或知道如何解决这个问题?如有任何建议,我将不胜感激。

亲切的问候

巴甫洛

我的代码:

 gff3_out = c()
    my_filter = c()
    for(chr in chromosomes){
    my_filter <- list(seqid=chr)  
    gff3_out <- file.path(gff_path, paste(chr,".gff",sep=""))
    export(readGFF("/path/to/my/gff.gff",filter=my_filter), gff3_out)  
    }
    PopGenome::VCF_split_into_scaffolds("my_multiVCF_from_GATK.vcf","scaffoldVCFs2")
    allgenomes <- PopGenome::readData("path/to/data/with_VCFs",format="VCF",gffpath = "path/to/data/gff_data",big.data = TRUE)

我的电脑:

Windows 10
Intel(R) Core(TM) i7-8565U CPU @ 1.80GHz   1.99 GHz;
RAM 32,0 GB (31,9 GB verwendbar);
Systemtyp   64-Bit-Betriebssystem, x64-basierter Prozessor

【问题讨论】:

标签: r bioinformatics vcf-variant-call-format


【解决方案1】:

我现在尝试在另一台 Windows 机器/全新 R 安装上,不幸的是出现了同样的错误。

readData 读取记录时,我还检查了 Windows 内存使用情况,并没有表明内存不足可能是导致崩溃的原因。

之后在 Linux 服务器上,我使用 PopGenomereadData 读取数据,它运行得非常好。

我的临时解决方案是 - Linux 服务器。但是,我仍然不知道readData 无法处理更大的数据集是Windows 版本的R,还是一般的Windows。也许有人可以回答这个问题。实际上,很遗憾你不能在 Windows 上使用如此有吸引力的 R 包/函数和更大的数据集(至少在我的情况下)。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2023-03-14
    • 2017-02-01
    • 2019-05-29
    • 2017-07-22
    • 2023-03-16
    • 1970-01-01
    相关资源
    最近更新 更多