【问题标题】:How to recode missing genotype code is " '-' " in the ped file of plink如何重新编码缺失的基因型代码是plink的ped文件中的“'-'”
【发布时间】:2021-06-29 16:39:36
【问题描述】:

我正在尝试从公共参考面板中估算基因型数据,但我的文件未能通过 Sanger Imputation 服务器上的文件完整性检查,并出现以下错误:

failed sanity check :

    of Non-ACGTN alternate allele at 1:4635556 .. REF_SEQ:'(null)' vs VCF:'-'

我已尝试使用以下命令在 plink 中修复此问题 ./plink --bfile chr1 --recode vcf --out chr1_vcf --missing-genotype - 但随后它给出了样本 ID 中存在的错误下划线。 --recode vcf to chr1_vcf.vcf ... 完成。 但我仍然在新的编码文件中看到“_”。

我将不胜感激任何帮助、建议和 cmets。

谢谢 杰斯迪普

【问题讨论】:

    标签: imputation genetics


    【解决方案1】:

    在运行代码之前,您必须在 PLINK 文件中将 _ 替换为不同的字符。

    见下文PLINK手册

    当使用--recode vcf 时,通过合并FIDIID 并在它们之间放置一个下划线来形成样本ID。当FIDIID 已经包含下划线时,这可能会使从VCF 文件中重建它们变得困难;您可能希望在 PLINK 文件中用不同的字符替换下划线(Unix tr 在这里很方便)。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2017-02-01
      • 1970-01-01
      • 2012-06-24
      • 2018-04-05
      • 2012-06-12
      相关资源
      最近更新 更多