VCF 详解
VCF文件主题有两部分组成:
1、注释文件:包括了

##fileformat=VCFv4.1		#文件格式版本
##program=fas2vcf			#文件生成系统
##samples=DUNA3503	#样本个体编号

##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">

2、主体文件:
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT DUNA3503 D

CHROM:染色体位置

POS: 碱基所在的位置

ID: dbSNP里的rs编号

REF和ALT: 变异位点处,参考基因组中的碱基和研究对象对应的碱基

QUAL:质量值,可以理解为所call出来的变异位点的质量值。表 示在该位点存在variant的可能性;该值越高,则variant的可能性越大;
计算方法:① Q=-10*lgP,Q表示质量值;P表示这个位点发生错误的概率。
②Phred值Q = -10 * lg (1-p) ,p为variant存在的概率;
通过计算公式可以看出值为10的表示错误概率为0.1,该位点为variant的概率为90%。
同理,当Q=20时,错误率就控制在了0.01。
FILTER: FILTER一栏就会注释一个PASS,没有进行过任何过滤的话就注释为“.”。
GT: 表示这个样本的基因型,对于一个二倍体生物,GT值表示的是这个样本在这个位点所携带的两个等位基因。0表示跟REF一样;1表示表示跟ALT一样;2表示第二个ALT。当只有一个ALT 等位基因的时候,0/0表示纯和且跟REF一致;0/1表示杂合,两个allele一个是ALT一个是REF;1/1表示纯和且都为ALT

相关文章:

  • 2021-11-09
  • 2021-06-17
  • 2021-04-07
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2021-05-19
  • 2022-12-23
猜你喜欢
  • 2022-12-23
  • 2022-12-23
  • 2022-01-08
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
相关资源
相似解决方案