您可以按照您的建议使用 PLINK。您也可以使用 BCFtools:
https://samtools.github.io/bcftools/bcftools.html
具体来说,concat 命令:
bcftools concat ALL.chr{1..22}.phase3_shapeit2_mvncall_integrated_v5a.20130502.genotypes.vcf.gz -Oz -o ALL.autosomes.phase3_shapeit2_mvncall_integrated_v5a.20130502.genotypes.vcf.gz
如果您使用 PLINK,您可能会遇到 1000 Genomes 的问题,因为它包含与 PLINK 不兼容的多等位基因 SNP。另外,有些SNP具有相同的RS标识符,这也与PLINK不兼容。
您需要通过将多等位基因 SNP 拆分为多个记录并删除具有重复 RS 标识符的记录(或创建一个新的唯一标识符)来解决这些问题,以使 PLINK 正常工作。
此外,PLINK 二进制 PED 不支持基因型概率。我不记得 1000 Genomes 是否包含此类信息。如果确实如此并且您想保留它,则无法将其转换为二进制 PED,因为基因型概率将被硬调用,请参阅:
https://www.cog-genomics.org/plink2/input
具体来说:
由于 PLINK 1 二进制格式不能表示基因型
概率,不确定性大于 0.1 的调用通常是
被视为失踪,其余的被视为硬呼叫。
因此,如果您打算为输出保留 VCF 格式,我建议您不要使用 PLINK。
编辑
以下是将VCF转换为PLINK的方法:
要从 VCF 文件构建 PLINK 兼容文件,需要合并或删除重复的位置和 SNP id。在这里,我选择删除所有重复的条目。目录重复 SNP id:
grep -v '^#' <(zcat ALL.chr${chrom}.phase3_shapeit2_mvncall_integrated_v5a.20130502.genotypes.vcf.gz) | cut -f 3 | sort | uniq -d > ${chrom}.dups
使用 BCFTools,拆分多等位基因 SNP,并使用 plink 删除在上一步中找到的重复 SNP id:
bcftools norm -d both -m +any -Ob ALL.chr${chrom}.phase3_shapeit2_mvncall_integrated_v5a.20130502.genotypes.vcf.gz | plink --bcf /dev/stdin --make-bed --out ${chrom} --allow-extra-chr 0 --memory 6000 --exclude ${chrom}.dups
重要的是,这不是解决将 VCF 转换为 PLINK 问题的唯一方法。例如,您可以为重复的 RS id 唯一分配标识符。