• 比对软件介绍
    • 目的:定位Iso-Seq分析得到的全长转录本在基因组中的位置,从而得到转录本结构和可变剪切等信息。
    • 推荐比对软件:GMAP,minimap2,deSALT
      参考网址:https://github.com/Magdoll/cDNA_Cupcake/wiki/Best-practice-for-aligning-Iso-Seq-toreference-genome:-minimap2,-deSALT,-GMAP,-STAR,-BLAT
      • GMAP
        • GMAP(a Genomic Mapping and Alignment Program),是一款针对mRNA和EST序列的基因组定位和比对程序。该软件2005年在Bioinformatics 杂志正式发表,一直持续更新升级,目前最新版是Version 2020-06-30。PacBio测序技术出现后,GMAP常用于Iso-Seq全长转录本的比对,在该应用中引用量最高。
        • 安装:tar -zxvf gmap-gsnap-2020-06-30.tar.gzcd gmap-2020-06-30./configure --prefix=$PWDmake && make install
        • 测试:(显示帮助信息)./gmap-2020-06-30/bin/gmap
        • 使用:
          • 创建索引
            • gmap_build -D path -d dbname -k kmer EndFragment
            • 参数说明:-D 创建索引的存放路径(默认存放在安装路径下的share文件夹);-d 创建索引的名字;-k 创建索引的kmer值,默认值为15。
          • 序列比对
            • gmap -D ./gmapdb -d hg38 -n 0 -t 8 -z sense_force -f samse flnc.fasta >flnc.fasta.sam 2> flnc.fasta.sam.log 
            • 参数说明:-D 创建索引的存放路径(默认存放在安装路径下的share文件夹);-d 创建索引的名字;-n 设置0,表示同时输出linear alignment和chimeric alignment;-t 线程数;-z 设置cDNA方向;-f 指定输出文件的格式;samse = SAM format (without setting paired_read bit)
      • Minimap2
        • Minimap2是李恒18年用C语言开发的一种通用序列比对程序,可将DNA或mRNA序列与大型参考数据库进行比对。典型的应用包括:1)PacBio或ONT基因组reads比对;2)发现长reads之间的重叠;3)针对PacBio Iso-Seq或Nanopore cDNA的剪切比对;4)用于二代单端和双端数据比对。该软件2018年在Bioinformatics 杂志正式发表。(2019年IF=5.6)
          参考文献网址:https://academic.oup.com/bioinformatics/article/34/18/3094/4994778
        • 使用
          • step1:创建索引(可选)minimap2 -d hg38.mmi hg38.fa## 
          • step2:序列比对minimap2 -t 10 -ax splice -uf --MD --secondary=no -C5 -O6,24 -B4 hg38.mmi flnc.fasta >flnc.fasta.sam 2> flnc.fasta.sam.log
            • 参数说明:-t 线程数;-ax 不同的数据类型指定不同的模式;Iso-Seq数据选择splice;-uf 对于Iso-Seq数据,只考虑转录链;--MD 输出MD标签;--secondary=no 输出最好的比对结果;-C5 识别非典型的GT-AG剪切位点,灵敏度更高;-O6,24 -B4 可以找到更多外显子;输出格式可支持sam和paf格式。
      • deSALT
        • deSALT(de Bruijn graph-based Spliced Aligner for Long Transcriptome reads) ,是哈尔滨工业大学王亚东团队开发的一款专门针对于转录组长reads的剪切比对软件。原理:采用两遍比对方法,构造基于德布莱英图(De Bruijn graph)的比对骨架以推断外显子,并使用它们来生成剪接的参考序列以产生精确的比对,更好的解决小外显子、测序错误等技术问题。该软件2019年在Genome Biology 杂志正式发表。(2019年IF=12.1)
          参考文献网址:https://genomebiology.biomedcentral.com/articles/10.1186/s13059-019-1895-9
        • 安装:tar -zxvf v1.5.5.tar.gzcd deSALT-1.5.5/src/deBGA-master/makecd ..make
        • 测试:(显示帮助信息)./deSALT
        • 使用:
          • step1:创建索引deSALT index hg38.fa hg38.deSALT.index
          • step2:序列比对deSALT aln hg38.deSALT.index flnc.fasta -t 12 -x ccs -O6,24 -M4 -T -o flnc.fasta.sam
            • 参数说明:-t 线程数;-x 指定reads类型,ccs\clr\ont1d\ont2d;-O6,24 -M4 对于CCS序列,可以使用此参数,减少错配和gap,提升准确度;-T 根据转录链发现剪切位点(针对Iso-Seq和Direct RNA-seq数据)。
  • 比对软件比较
    • gmap、minimap2比较
      • 比较来源于2018年minimap2发表的文章,文章认为GMAP资源消耗较大,对noisy reads比对效果不佳2020.10.08丨全长转录组之参考基因组比对
  •  

相关文章: