RNAseq数据处理实验记录ydy_sir

step1:数据准备

数据要求：

可以将数据分为两类，没类不少于50个runs;人类；胰腺癌

步骤：

1.1：在ncbi的SRA数据库，搜索和胰腺癌相关的数据

点击SRA run Brower

RNAseq数据处理实验记录ydy_sir

点击study，按照研究的的内容检索数据集

RNAseq数据处理实验记录ydy_sir

输入检索词【pancreatic cancer AND GEO AND RNA-seq AND human】

1:检索词输入框

2:结果输出为43个

3:数据的来源为geo

4:记录实验数据的编号

RNAseq数据处理实验记录ydy_sir

点击查看一条数据的基本概况

1：实验的样本为3个；实验测得runs数为3

2: 点击结果每个实验的GEO编号

RNAseq数据处理实验记录ydy_sir

点击上图的2编号，查看GSE数据的基本情况

1：物种，人类

2：高通量测序非编码RNA分析

1：该套数据的基本情况：发表时间；更新时间；联系邮箱；联系人；国家

2：测序平台

3：测序数据分类数据

4：SRA数据库链接

RNAseq数据处理实验记录ydy_sir

点击relations->SRA（上一幅图）

点击send results to run selector

RNAseq数据处理实验记录ydy_sir

点击箭头处下载，所有runs的SRR编号,这里会有所有的runs的分类数据

RNAseq数据处理实验记录ydy_sir

结果

确定实验数据的编号：GSE71008,数据测序物种为人类，高通量测序数据，共192个样本和测序数据，主要的对照实验两组为结直肠癌和健康，结直肠癌的样本数为100例，健康控制为50例。可根据该数据的run selector将数据分类清晰。

1.2 数据的下载

首先prefetch需要在环境变量中可见,测试

prefetch -h

出现以下代码回显表示校验成功，否则请参考其他博客sratoolskit程序

RNAseq数据处理实验记录ydy_sir

将下载的ACESSION lIST文件保存下来，循环下载

ACESSION lIST文件下载，参考数据准备的最后一步，也可以自己创建（一个下载sra样本编号一个）

RNAseq数据处理实验记录ydy_sir

多runs下载的程序请参考本人的githb程序multiprefetch (https://github.com/liuxingyi/experSoftware);

该bash需要环境中配置好sratoolkit，prefetch程序且在环境变量能够可见。

RNAseq数据处理实验记录ydy_sir

下载当前目录代码：

./multiprefetch -i ../SRR_Acc_List.txt -o ./

-i 输入下载的SRR文件，一行一个

-o 下载位置，默认为当前目录

-h 帮助文档

因为本人本科学生，程序代码的问题请多批评。

因为数据的下载可能会非常慢，故使用老师提供的服务器下载

RNAseq数据处理实验记录ydy_sir

1.3 从sra数据获取数据的fastq格式

首先获取测序的单端还是双端

点击该数据的任意一个，获取数据的基本信息，得知该数据为单端测序

RNAseq数据处理实验记录ydy_sir

step2数据预处理

将sra格式转成fastq格式

网址：https://github.com/liuxingyi/experSoftware

自己编写的循环处理脚本：mutiFastqDump （基于fastq-dump）

该代码需要环境中配置好sratoolkit程序且在环境变量能够可见。

nohup ./mutiFastqDump -i ../SRR_Acc_List.txt -I ../SRRs/ -o ../fastq/ &

-i 输入下载的SRR名单，一行一个

-I 输入下载的sra文件的目录

--split-3 处理双端序列

-o 下载位置，默认为当前目录

-h 帮助文档

数据质控

代码：

mkdir fastqc
cd bin
nohup ./multiFastqc -i ../SRR_Acc_List.txt -I ../fastq -o ../fastqc/ &
multiqc ../fastqc

multiFastqc(fastqc命令在系统路径中可见)

-i 输入下载的SRR名单，一行一个

-I 输入下载的sra文件的目录

--split-3 处理双端序列

-o 下载位置，默认为当前目录

-h 帮助文档

RNAseq数据处理实验记录ydy_sir

数据质控的情况截图

下载人类基因组并创建bowtie2索引文件

下载参考基因组和注释文件请参考我的博客：如何下载人类的参考基因组和注释文件一文。

nohup bowtie2-build hg19.fa ./bowtie2Index/hg19Index &