step1:数据准备
数据要求:
可以将数据分为两类,没类不少于50个runs;人类;胰腺癌
步骤:
1.1:在ncbi的SRA数据库,搜索和胰腺癌相关的数据
点击SRA run Brower
点击study,按照研究的的内容检索数据集
输入检索词【pancreatic cancer AND GEO AND RNA-seq AND human】
1:检索词输入框
2:结果输出为43个
3:数据的来源为geo
4:记录实验数据的编号
点击查看一条数据的基本概况
1:实验的样本为3个;实验测得runs数为3
2: 点击结果每个实验的GEO编号
点击上图的2编号,查看GSE数据的基本情况
1:物种,人类
2:高通量测序非编码RNA分析
1:该套数据的基本情况:发表时间;更新时间;联系邮箱;联系人;国家
2:测序平台
3:测序数据分类数据
4:SRA数据库链接
点击relations->SRA(上一幅图)
点击send results to run selector
点击箭头处下载,所有runs的SRR编号,这里会有所有的runs的分类数据
结果
确定实验数据的编号:GSE71008,数据测序物种为人类,高通量测序数据,共192个样本和测序数据,主要的对照实验两组为结直肠癌和健康,结直肠癌的样本数为100例,健康控制为50例。可根据该数据的run selector将数据分类清晰。
1.2 数据的下载
首先prefetch需要在环境变量中可见,测试
prefetch -h
出现以下代码回显表示校验成功,否则请参考其他博客sratoolskit程序
将下载的ACESSION lIST文件保存下来,循环下载
ACESSION lIST文件下载,参考数据准备的最后一步,也可以自己创建(一个下载sra样本编号一个)
多runs下载的程序请参考本人的githb程序multiprefetch (https://github.com/liuxingyi/experSoftware);
该bash需要环境中配置好sratoolkit,prefetch程序且在环境变量能够可见。
下载当前目录代码:
./multiprefetch -i ../SRR_Acc_List.txt -o ./
-i 输入下载的SRR文件,一行一个
-o 下载位置,默认为当前目录
-h 帮助文档
因为本人本科学生,程序代码的问题请多批评。
因为数据的下载可能会非常慢,故使用老师提供的服务器下载
1.3 从sra数据获取数据的fastq格式
首先获取测序的单端还是双端
点击该数据的任意一个,获取数据的基本信息,得知该数据为单端测序
step2数据预处理
将sra格式转成fastq格式
网址:https://github.com/liuxingyi/experSoftware
自己编写的循环处理脚本:mutiFastqDump (基于fastq-dump)
该代码需要环境中配置好sratoolkit程序且在环境变量能够可见。
nohup ./mutiFastqDump -i ../SRR_Acc_List.txt -I ../SRRs/ -o ../fastq/ &
-i 输入下载的SRR名单,一行一个
-I 输入下载的sra文件的目录
--split-3 处理双端序列
-o 下载位置,默认为当前目录
-h 帮助文档
数据质控
代码:
mkdir fastqc
cd bin
nohup ./multiFastqc -i ../SRR_Acc_List.txt -I ../fastq -o ../fastqc/ &
multiqc ../fastqc
multiFastqc(fastqc命令在系统路径中可见)
-i 输入下载的SRR名单,一行一个
-I 输入下载的sra文件的目录
--split-3 处理双端序列
-o 下载位置,默认为当前目录
-h 帮助文档
数据质控的情况截图
下载人类基因组并创建bowtie2索引文件
下载参考基因组和注释文件请参考我的博客:如何下载人类的参考基因组和注释文件一文。
nohup bowtie2-build hg19.fa ./bowtie2Index/hg19Index &