我的原始测序数据是双端测序,在用trim_galore软件去接头的这一步,使用的命令行是

time nohup trim_galore R17002628-SKOV3-m6A_combined_R1.fastq.gz R17002628-SKOV3-m6A_combined_R2.fastq.gz &

相当然的以为软件会默认为双端测序,结果接下来一步用tophat软件mapping到参考基因组上的时候,发现mapping率只用10%,低的惊人。后来排除建库失败的可能,我去查看了trim_galore运行时的日志文件,如下:

Input filename: /data/itmll/yanlu/2017-08-24_data/Project_s272g01038/Sample_R17002629-SKO
V3-Tax-m6AR17002629-SKOV3-Tax-m6A_combined_R2.fastq.gz
Trimming mode: single-end

发现是single_end!

正确的命令行是

time nohup trim_galore --paired R17002629-SKOV3-Tax-m6A_combined_R1.fastq.gz R17002629-SKOV3-Tax-m6A_combined_R2.fastq.gz &

指定--paired参数

mapping率低的原理:

single-end模式下,可能双端测序的同一条read中有一条的length不合格,所以trim_galore会将其删除,结果是trim后的两个文件read数不一样。tophat认为双端测序文件的顺序是一一对应的,这样导致的后果是,tophat以为双端测序的两条readmapping到不同的位置上了,就会舍弃,导致mapping率低。

相关文章:

  • 2020-07-07
  • 2021-04-27
  • 2022-12-23
  • 2021-10-22
  • 2021-08-03
  • 2021-12-08
  • 2021-08-03
猜你喜欢
  • 2022-12-23
  • 2021-07-01
  • 2022-12-23
  • 2022-02-13
  • 2021-05-09
  • 2022-12-23
  • 2021-08-29
相关资源
相似解决方案