1.数据质控
#fastqc
fastqc -o 1.rawdata/fastqc/ ./1.rawdata/*.gz;cd 1.rawdata/fastqc/;multiqc ./*.zip
# trim_galore
for r in case ctrl
do
for i in `seq 0 2`
do
trim_galore -q 20 --phred33 --stringency 3 --length 50 -e 0.1 --paired --gzip -- fastqc \
-o 2.cleandata/ 1.rawdata/SRR_${r}_rep${i}_R1.fastq.gz 1.rawdata/SRR_${r}_rep${i}_R2.fastq.gz
done
done
2.STAR 比对
2.1构建索引
../../STAR/STAR/bin/Linux_x86_64/STAR \
--runThreadN 6 --runMode genomeGenerate \
--genomeDir ./ \
--genomeFastaFiles /mnt/hgfs/D/PSI/DATA/Homo_sapiens.GRCh38.dna.primary_assembly.fa \
--sjdbGTFfile /mnt/hgfs/D/PSI/DATA/Homo_sapiens.GRCh38.104.gtf \
--sjdbOverhang 100
2.2进行比对
STAR \
--genomeDir /home/sxw/HF/Index \ #索引文件夹
--runThreadN 6 \ #20个线程
--readFilesCommand gunzip -c \ #输入的测序文件是fq.gz格式的(未解压缩的)
--readFilesIn SRR830965_1.fastp.fq.gz SRR830965_2.fastp.fq.gz \ #双端测序(空格空开)
--outSAMtype BAM SortedByCoordinate \ #输出格式为BAM并排序
--outBAMsortingThreadN 10 \ #SAM排序成BAM时调用线程数
--outFileNamePrefix ./SRR830965_ #输出文件的前缀
3.可变剪切分析
perl ~/PSIsigma/dummyai.pl \
--gtf Homo_sapiens.GRCh38.87.sorted.gtf \
--name PSIsigma \
--type 1 \
-nread 10