2017-03-10-RNA分析基本流程

RNA分析的基本流程介绍和软件参数设置介绍：

1：数据的质量控制：

评估数据质量的软件有很多，在这里我推荐fastqc、cutadapt和Trimmomatic的组合，使用fastqc评估数据的质量，然后使用cutadapt切去接头序列，然后使用Trimmomatic执行质量过滤（cutadapt也可以做到）。　　　　　　

　　fastqc cmd：fastqc -o QCdir/ --threads 8 -q myfile

　　-o:输出目录; --threads:使用线程; -q:安静模式，不打印屏幕输出; myfile(s):评估文件（file1 file2 file3）

　　对于输出结果首先查看

　　这两个条目，首先要保证过表达序列中没有出现PCR的引物（非no hit以外的序列），不出现接头序列。详细可以参见FastQC/Configuration中的adapter_list.txt（adapter序列）和contaminant_list.txt（PCR引物序列）文件。在实际操作过程中，Trimmomatic在过滤Overrepresented sequences的表现良好，可以轻易达到要求，但是对于adapter效果不是很好，使用cutadapt更好一点。

　　（single）cutadapt cmd：cutadapt -a ATCGGGCGGAATATTACCCA（adapter1） -g CTAACCAGGGAGA（adapter2） input.fastq output.fastq

　　-a：去除3’接头（从接头到3’末端都删除）; -g：去除5’接头（从接头到5’首端都删除）; -m：20（当reads长度短于该值的时候，舍去，但是依然会占用4行，是空行）；

　　（paired）cutadapt cmd：cutadapt -a ADAPT1 -A ADAPT2 -o out1.fastq -p out2.fastq in1.fastq in2.fastq
　　-a(A)：去除3’（paired reads）接头（从接头到3’末端都删除）; -g(G)：去除5’（paired reads）接头（从接头到5’首端都删除）; -m：20（当reads长度短于该值的时候，舍去，但是依然会占用4行，是空行）； -o：输出； -p：paired reads输出

　　经过cutadapt的过滤，一般adapter就会被完全过滤掉了，然后使用Trimmomatic过滤过表达的序列（PCR引物）以及质量过滤（将reads质量控制在20以上）

　　（single）Trimmomatic cmd：java -jar trimmomatic-0.33.jar SE -threads 8 -phred33 file.fq out.fq ILLUMINACLIP:filter.fa:2:30:10 LEADING:3 TRAILING:3 AVGQUAL:20 SLIDINGWINDOW:4:15 MINLEN:36

java -jar trimmomatic-0.33.jar PE -threads 8 -phred33 1_1.fq 1_2.fq 1_1pair.fq 1_1unpair.fq 1_2pair.fq 1_2unpair.fq ILLUMINACLIP:filter.fa:2:30:10 LEADING:3 TRAILING:3 AVGQUAL:20 SLIDINGWINDOW:4:15 MINLEN:36

2：比对：

使用hisat2软件比对

使用RseQC软件判断是否是特异性链测序，是的话重新比对，一般来说比对率没有差别，或者变小一点点

提取高质量比对结果，我一般挑选比对质量在30以上的做后续分析

3：统计表达量&&差异表达分析：

对于基因和转录本表达量的描述有很多（fpkm、reads count、TMP……），但是一般采用reads count来进行差异表达分析，使用软件HTseq-count统计基因和转录本的表达reads数目，然后使用DESeq软件做差异表达分析

4：差异基因的注释：

对差异表达的基因做GO和KEGG注释，从而寻找引起物种性状改变的原因。对于已测序物种的GO分析可以按照以下方式：1根据参考注释文件将差异表达的基因ID转化为symbol ID，然后通过gene_info文件将其转变成NCBI ID，在根据gene2go文件将NCBI ID转变成GO ID，然后使用weGO（超几何检验）富集分析。对于未测序物种一般是先提取差异表达的基因的序列，然后使用blast和已知的蛋白质库（核酸库）比较，得到最相似的蛋白质ID号（核酸号），然后找到对应的GO号。KEGG分析类似。在KEGG官方网站下面有个BlastKOALA的批量提交的工具。GhostKOALA提交，上传蛋白质序列文件，选择物种。

5：组装新基因和新转录本：

使用stringtie软件对物种完成新基因和新转录本的组装，提取新基因和新转录本做差异表达分析，重复34步骤。

lncRNA的鉴定，首先根据一些基本的筛选条件过滤掉部分转录本（CPC运行速度超级慢），常用的过滤条件：1长度大于等于200（是RNA序列，不是对应的基因序列）；2在多个测序样本中均有表达，表达量在5以上（因为lncRNA本身表达量就比较低，根据物种的测序深度，该条件需要适当的上调，否则不具有意义）；3根据和已知基因的关系判断（比如lincRNA就是位于基因间的lncRNA，可以使用gffcompare软件比较根据classcode来筛选）。上述步骤的最终目的都是为了减少CPC的工作压力，对于计算性能比较强的集群，可以考虑直接去运行CPC，而不需要提前过滤。

6：组装新基因和新转录本的GO注释和KEGG注释：

重复34步骤

7：使用ASprofile做可变剪切分析：

8：使用GATK做SNP分析：

以上就是RNA-Seq数据的基本分析流程，其他的个性化分析需要自己定义

9：未完待续：