fengchuiguo1994

RNA分析的基本流程介绍和软件参数设置介绍:

1:数据的质量控制:

      评估数据质量的软件有很多,在这里我推荐fastqc、cutadapt和Trimmomatic的组合,使用fastqc评估数据的质量,然后使用cutadapt切去接头序列,然后使用Trimmomatic执行质量过滤(cutadapt也可以做到)。      

  fastqc cmd:fastqc -o QCdir/ --threads 8 -q myfile

  -o:输出目录;  --threads:使用线程;  -q:安静模式,不打印屏幕输出;  myfile(s):评估文件(file1 file2 file3)

  对于输出结果首先查看

  

 

  这两个条目,首先要保证过表达序列中没有出现PCR的引物(非no hit以外的序列),不出现接头序列。详细可以参见FastQC/Configuration中的adapter_list.txt(adapter序列)和contaminant_list.txt(PCR引物序列)文件。在实际操作过程中,Trimmomatic在过滤Overrepresented sequences的表现良好,可以轻易达到要求,但是对于adapter效果不是很好,使用cutadapt更好一点。

  (single)cutadapt cmd:cutadapt -a ATCGGGCGGAATATTACCCA(adapter1) -g CTAACCAGGGAGA(adapter2) input.fastq output.fastq

  -a:去除3’接头(从接头到3’末端都删除);  -g:去除5’接头(从接头到5’首端都删除);  -m:20(当reads长度短于该值的时候,舍去,但是依然会占用4行,是空行); 

  (paired)cutadapt cmd:cutadapt -a ADAPT1 -A ADAPT2 -o out1.fastq -p out2.fastq in1.fastq in2.fastq
  -a(A):去除3’(paired reads)接头(从接头到3’末端都删除);  -g(G):去除5’(paired reads)接头(从接头到5’首端都删除);  -m:20(当reads长度短于该值的时候,舍去,但是依然会占用4行,是空行);  -o:输出;  -p:paired reads输出

  经过cutadapt的过滤,一般adapter就会被完全过滤掉了,然后使用Trimmomatic过滤过表达的序列(PCR引物)以及质量过滤(将reads质量控制在20以上)

  (single)Trimmomatic cmd:java -jar trimmomatic-0.33.jar SE -threads 8 -phred33 file.fq out.fq ILLUMINACLIP:filter.fa:2:30:10 LEADING:3 TRAILING:3 AVGQUAL:20 SLIDINGWINDOW:4:15 MINLEN:36

  

 

java -jar trimmomatic-0.33.jar PE -threads 8 -phred33 1_1.fq 1_2.fq 1_1pair.fq 1_1unpair.fq 1_2pair.fq 1_2unpair.fq ILLUMINACLIP:filter.fa:2:30:10 LEADING:3 TRAILING:3 AVGQUAL:20 SLIDINGWINDOW:4:15 MINLEN:36

2:比对:

使用hisat2软件比对

使用RseQC软件判断是否是特异性链测序,是的话重新比对,一般来说比对率没有差别,或者变小一点点

提取高质量比对结果,我一般挑选比对质量在30以上的做后续分析

3:统计表达量&&差异表达分析:

对于基因和转录本表达量的描述有很多(fpkm、reads count、TMP……),但是一般采用reads count来进行差异表达分析,使用软件HTseq-count统计基因和转录本的表达reads数目,然后使用DESeq软件做差异表达分析

4:差异基因的注释:

对差异表达的基因做GO和KEGG注释,从而寻找引起物种性状改变的原因。对于已测序物种的GO分析可以按照以下方式:1根据参考注释文件将差异表达的基因ID转化为symbol ID,然后通过gene_info文件将其转变成NCBI ID,在根据gene2go文件将NCBI ID转变成GO ID,然后使用weGO(超几何检验)富集分析。对于未测序物种一般是先提取差异表达的基因的序列,然后使用blast和已知的蛋白质库(核酸库)比较,得到最相似的蛋白质ID号(核酸号),然后找到对应的GO号。KEGG分析类似。在KEGG官方网站下面有个BlastKOALA的批量提交的工具。GhostKOALA提交,上传蛋白质序列文件,选择物种。

 

5:组装新基因和新转录本:

使用stringtie软件对物种完成新基因和新转录本的组装,提取新基因和新转录本做差异表达分析,重复34步骤。

lncRNA的鉴定,首先根据一些基本的筛选条件过滤掉部分转录本(CPC运行速度超级慢),常用的过滤条件:1长度大于等于200(是RNA序列,不是对应的基因序列);2在多个测序样本中均有表达,表达量在5以上(因为lncRNA本身表达量就比较低,根据物种的测序深度,该条件需要适当的上调,否则不具有意义);3根据和已知基因的关系判断(比如lincRNA就是位于基因间的lncRNA,可以使用gffcompare软件比较根据classcode来筛选)。上述步骤的最终目的都是为了减少CPC的工作压力,对于计算性能比较强的集群,可以考虑直接去运行CPC,而不需要提前过滤。

6:组装新基因和新转录本的GO注释和KEGG注释:

重复34步骤

 

7:使用ASprofile做可变剪切分析:

 

8:使用GATK做SNP分析:

 

以上就是RNA-Seq数据的基本分析流程,其他的个性化分析需要自己定义

9:未完待续:

 

分类:

技术点:

相关文章: