step1:数据准备

数据要求:

可以将数据分为两类,没类不少于50个runs;人类;胰腺癌

步骤:

1.1:在ncbi的SRA数据库,搜索和胰腺癌相关的数据

点击SRA run Brower

RNAseq数据处理实验记录ydy_sir

点击study,按照研究的的内容检索数据集 

 

RNAseq数据处理实验记录ydy_sir

输入检索词【pancreatic cancer  AND GEO AND RNA-seq AND human】

1:检索词输入框

2:结果输出为43个

3:数据的来源为geo

4:记录实验数据的编号

RNAseq数据处理实验记录ydy_sir

点击查看一条数据的基本概况

1:实验的样本为3个;实验测得runs数为3

2: 点击结果每个实验的GEO编号

RNAseq数据处理实验记录ydy_sir

点击上图的2编号,查看GSE数据的基本情况

1:物种,人类

2:高通量测序非编码RNA分析

1:该套数据的基本情况:发表时间;更新时间;联系邮箱;联系人;国家

2:测序平台

3:测序数据分类数据

4:SRA数据库链接

RNAseq数据处理实验记录ydy_sir

RNAseq数据处理实验记录ydy_sir

点击relations->SRA(上一幅图)

点击send results to run selector

RNAseq数据处理实验记录ydy_sir

 点击箭头处下载,所有runs的SRR编号,这里会有所有的runs的分类数据

RNAseq数据处理实验记录ydy_sir

 

结果

 确定实验数据的编号:GSE71008,数据测序物种为人类,高通量测序数据,共192个样本和测序数据,主要的对照实验两组为结直肠癌和健康,结直肠癌的样本数为100例,健康控制为50例。可根据该数据的run selector将数据分类清晰。

1.2 数据的下载

首先prefetch需要在环境变量中可见,测试 

prefetch -h

出现以下代码回显表示校验成功,否则请参考其他博客sratoolskit程序

RNAseq数据处理实验记录ydy_sir

 

将下载的ACESSION lIST文件保存下来,循环下载

ACESSION lIST文件下载,参考数据准备的最后一步,也可以自己创建(一个下载sra样本编号一个)

RNAseq数据处理实验记录ydy_sir

 

多runs下载的程序请参考本人的githb程序multiprefetch (https://github.com/liuxingyi/experSoftware);

该bash需要环境中配置好sratoolkit,prefetch程序且在环境变量能够可见。

RNAseq数据处理实验记录ydy_sir

下载当前目录代码:

./multiprefetch -i ../SRR_Acc_List.txt -o ./

-i         输入下载的SRR文件,一行一个

-o        下载位置,默认为当前目录

-h         帮助文档

 

因为本人本科学生,程序代码的问题请多批评。

因为数据的下载可能会非常慢,故使用老师提供的服务器下载

RNAseq数据处理实验记录ydy_sir

1.3 从sra数据获取数据的fastq格式

首先获取测序的单端还是双端

点击该数据的任意一个,获取数据的基本信息,得知该数据为单端测序

RNAseq数据处理实验记录ydy_sir

RNAseq数据处理实验记录ydy_sir

 

 

step2数据预处理

将sra格式转成fastq格式

网址:https://github.com/liuxingyi/experSoftware

自己编写的循环处理脚本:mutiFastqDump (基于fastq-dump)

该代码需要环境中配置好sratoolkit程序且在环境变量能够可见。

nohup ./mutiFastqDump -i ../SRR_Acc_List.txt -I ../SRRs/ -o ../fastq/ &

-i         输入下载的SRR名单,一行一个

-I          输入下载的sra文件的目录

--split-3 处理双端序列

-o        下载位置,默认为当前目录

-h         帮助文档

数据质控

代码:

mkdir fastqc
cd bin
nohup ./multiFastqc -i ../SRR_Acc_List.txt -I ../fastq -o ../fastqc/ &
multiqc ../fastqc

multiFastqc(fastqc命令在系统路径中可见) 

-i         输入下载的SRR名单,一行一个

-I          输入下载的sra文件的目录

--split-3 处理双端序列

-o        下载位置,默认为当前目录

-h         帮助文档

RNAseq数据处理实验记录ydy_sir

                                                                                 数据质控的情况截图

下载人类基因组并创建bowtie2索引文件

下载参考基因组和注释文件请参考我的博客:如何下载人类的参考基因组和注释文件一文。

nohup bowtie2-build hg19.fa ./bowtie2Index/hg19Index &

 

 

相关文章:

  • 2021-12-18
  • 2021-12-05
  • 2021-12-13
  • 2021-12-26
  • 2022-12-23
  • 2022-12-23
猜你喜欢
  • 2022-12-23
  • 2022-02-05
  • 2022-02-25
  • 2021-05-27
  • 2021-10-15
  • 2021-07-25
  • 2021-10-07
相关资源
相似解决方案