RNA_seq GATK 最佳实践

GATK处理DNA 水平的snp 经验比较成熟,而RNA 水平较少,所以可能会存在错误
目前的流程兼顾了假阳性(不是真的snp位点)和假阴性(该位点是snp,却没有检测到);后续会不断改善
 
 
GATK SNP calling pipeline 分成3个部分:
1)DATA CLEANUP
2) VARIANT DISCOVERY
3) EVALUATION
 
 
DATA CLEANUP :
1)raw reads 和  参考基因组比对(推荐使用STAT 2-pass)
 
STAR 建立参考基因组的索引
RNA_seq GATK 最佳实践
1-pass  比对:

RNA_seq GATK 最佳实践

先用第一次比对生成的SJ.out.tab 文件,重新建立索引:

RNA_seq GATK 最佳实践

2-pass 比对:

RNA_seq GATK 最佳实践

2) mark duplicates and sort 

picard  标记重复序列,并sort

RNA_seq GATK 最佳实践

3) split N and reassignMappingQuality

RNA_seq GATK 最佳实践

4)Indel realignment (可选的)

RNA_seq GATK 最佳实践

5)base recalibration

RNA_seq GATK 最佳实践

RNA_seq GATK 最佳实践

RNA_seq GATK 最佳实践

RNA_seq GATK 最佳实践

 

 6) variant  calling

RNA_seq GATK 最佳实践

 

 7)variant filter

RNA_seq GATK 最佳实践

 

 参考资料:

  https://software.broadinstitute.org/gatk/documentation/article.php?id=3891

https://software.broadinstitute.org/gatk/documentation/article?id=2801

 

 

 

相关文章:

  • 2021-11-23
  • 2021-12-23
  • 2021-07-05
  • 2022-01-03
  • 2022-01-19
  • 2022-01-17
  • 2021-04-29
猜你喜欢
  • 2021-11-23
  • 2022-01-30
  • 2021-06-17
  • 2021-12-17
相关资源
相似解决方案