使用trim_galore软件遇到的问题

我的原始测序数据是双端测序，在用trim_galore软件去接头的这一步，使用的命令行是

time nohup trim_galore R17002628-SKOV3-m6A_combined_R1.fastq.gz R17002628-SKOV3-m6A_combined_R2.fastq.gz &

相当然的以为软件会默认为双端测序，结果接下来一步用tophat软件mapping到参考基因组上的时候，发现mapping率只用10%，低的惊人。后来排除建库失败的可能，我去查看了trim_galore运行时的日志文件，如下：

Input filename: /data/itmll/yanlu/2017-08-24_data/Project_s272g01038/Sample_R17002629-SKO
V3-Tax-m6AR17002629-SKOV3-Tax-m6A_combined_R2.fastq.gz
Trimming mode: single-end

发现是single_end!

正确的命令行是

time nohup trim_galore --paired R17002629-SKOV3-Tax-m6A_combined_R1.fastq.gz R17002629-SKOV3-Tax-m6A_combined_R2.fastq.gz &

指定--paired参数

mapping率低的原理：

single-end模式下，可能双端测序的同一条read中有一条的length不合格，所以trim_galore会将其删除，结果是trim后的两个文件read数不一样。tophat认为双端测序文件的顺序是一一对应的，这样导致的后果是，tophat以为双端测序的两条readmapping到不同的位置上了，就会舍弃，导致mapping率低。