Flux-simulator笔记
官方网站:http://sammeth.net/confluence/display/SIM/Home
命令行:
flux-simulator -x -l -s -p 文件名.par
输入文件:
使用必须有的输入文件:1⃣️gtf文件(每一行必须有transcript_id!否则在Checking GTF file时报错)
2⃣️参数文件.par
如果要输出fasta/fastq,进行反转录等:3⃣️需要输入.fa位于的文件目录
(目录下是每个染色体的.fa!gtf中的chr必须都有!否则在sequence和fragment时报错)
输出文件:
.pro
.lib
.bed
(.fasta / .fastq)
模拟步骤:
1.gene expression 随机生成不同转录本表达
输出.pro文件
2.transcript modifications 加poly a尾巴等修饰
输出.lib文件
3.反转录
4.打断 可选择打断方式,概率分布
5.文库构建 片段大小、是否过滤、pcr
6.测序 错误模型、输出形式等
遇到的问题:
1.无法输出fastq文件?
FASTA参数设置为true
错误模型设置成76 or 35(若没有错误模型则生成fasta文件)
2.输出的reads长度有短于指定长度短片段?
原因是打断时,生成的片段长度小于指定reads长度。
所以将生成的片段进行长度控制过滤:FILTERING参数设置为true
3.提示ram不够?(Initializing PWM cache报错)
4.虽然选择的是双端测序,但是只输出一个fastq文件?
可以手动将fastq文件中的S(有义链)都写到read1.fq。A(反义链)都写到read2.fq。
也可以修改参数UNIQUE_IDS为true,以达到上述目地。