【发布时间】:2019-05-08 18:32:49
【问题描述】:
我有一个约 300 GB 的压缩 vcf 文件 (.vcf.gz),其中包含大约 700 条狗的基因组。我只对其中的几只狗感兴趣,目前我没有足够的空间来解压缩整个文件,尽管我正在准备一台计算机来执行此操作。是否可以仅解压缩文件的一部分以开始测试我的脚本?
我正在尝试将特定 SNP 置于样本子集的某个位置。我尝试使用 bcftools 无济于事:(如果有人能找出问题所在,我也将不胜感激。我为输出创建了一个空文件(722g.990.SNP.INDEL。 chrAll.vcf.bgz) 但它返回以下错误)
bcftools view -f PASS --threads 8 -r chr9:55252802-55252810 -o 722g.990.SNP.INDEL.chrAll.vcf.gz -O z 722g.990.SNP.INDEL.chrAll.vcf.bgz
无法识别输出类型“722g.990.SNP.INDEL.chrAll.vcf.bgz”
我打算尝试awk,但需要先解压缩文件。是否可以部分解压缩,以便我可以试试这个?
【问题讨论】:
-
也许这只是一个错字
.vcf.bgz->.vcf.bz? -
不幸的是,我尝试了很多不同的输出文件类型。我希望它像一个错字一样简单......
-
我的意思是,您确定
"722g.990.SNP.INDEL.chrAll.vcf.bgz"在输出错误消息中吗?因为该术语不在您提供的命令中。 -
@davedwards 你是对的,错误信息与命令不匹配,但两者都不起作用。我会改正那个错字
-
来自
bcftools的确切(逐字)错误消息是什么?如果对输入文件运行file命令,它会打印什么?
标签: linux gzip bioinformatics bcftools vcf-variant-call-format