处理基因组数据,很多时候我们会觉得直接看序列文件不够直观,如果绘图的话,把n多G把数据用画图出来不仅费劲,就算操作也不方便。因此我们可以用UCSC开发出的genome browser,可以直接把数据信息写成track,连上genome browser 上查看,它还支持安装到本地服务器上(genome browser in box ,简称GBIB),genome browser 支持的格式有bedGraph, GTF, PSL, BED, bigBed, WIG, bigGenePred, bigMaf, bigChain, bigPsl, bigWig, BAM, CRAM, VCF, MAF, BED detail, Personal Genome SNP, broadPeak, narrowPeak, and microarray (BED15),GFF和GTF文件必须tab分隔。 废话少说,直接入门。本文主要讲SAM,BAM,WIG,bigWig,VCF,BED文件上传及使用。
一、格式的前期处理
1.1 WIG 和 bigWig
WIG 文件格式,有两种可选的格式,variableStep和fixedStep。variableStep用于区间变化的,fixedStep用于区间固定的。
variableStep WIG文件以variableStep 开头,chrom染色体,可选参数span(默认span=1),指定每一行的位置区间,比如2,区间就是chromStart~chromStart+2。chromStart染色体位置,dataValue染色体位置上的值。
1 variableStep chrom=chrN 2 [span=windowSize] 3 chromStartA dataValueA 4 chromStartB dataValueB 5 ... etc ... ... etc ...
fixedStep文件以fixedStep开头,chrom染色体,start是起始固定的位置,step是每两个起始position之间的间隔,span和variableStep中的step一样,指定每一行的位置区间。
这样dataValue1对应的position是start~start+span,dataValue2对应的position是start+step~start+step+span.
1 fixedStep chrom=chrN 2 start=position step=stepInterval 3 [span=windowSize] 4 dataValue1 5 dataValue2 6 ... etc ...
WIG格式要在genome browser 上查看最好转换为bigWig文件,bigWig文件是index后的二进制WIG文件,在genome browser上查看更加快速,用wigToBigWig命令
1 wigToBigWig sample.wig chrom.sizes output.bw
chromsizes 文件可以从UCSC上下载,就是各个染色体的长度大小hg19.chrom.sizes可以从这里直接复制。
1 chr1 249250621 2 chr2 243199373 3 chr3 198022430 4 chr4 191154276 5 chr5 180915260 6 chr6 171115067 7 chr7 159138663 8 chrX 155270560 9 chr8 146364022 10 chr9 141213431 11 chr10 135534747 12 chr11 135006516 13 chr12 133851895 14 chr13 115169878 15 chr14 107349540 16 chr15 102531392 17 chr16 90354753 18 chr17 81195210 19 chr18 78077248 20 chr20 63025520 21 chrY 59373566 22 chr19 59128983 23 chr22 51304566 24 chr21 48129895 25 chr6_ssto_hap7 4928567 26 chr6_mcf_hap5 4833398 27 chr6_cox_hap2 4795371 28 chr6_mann_hap4 4683263 29 chr6_apd_hap1 4622290 30 chr6_qbl_hap6 4611984 31 chr6_dbb_hap3 4610396 32 chr17_ctg5_hap1 1680828 33 chr4_ctg9_hap1 590426 34 chr1_gl000192_random 547496 35 chrUn_gl000225 211173 36 chr4_gl000194_random 191469 37 chr4_gl000193_random 189789 38 chr9_gl000200_random 187035 39 chrUn_gl000222 186861 40 chrUn_gl000212 186858 41 chr7_gl000195_random 182896 42 chrUn_gl000223 180455 43 chrUn_gl000224 179693 44 chrUn_gl000219 179198 45 chr17_gl000205_random 174588 46 chrUn_gl000215 172545 47 chrUn_gl000216 172294 48 chrUn_gl000217 172149 49 chr9_gl000199_random 169874 50 chrUn_gl000211 166566 51 chrUn_gl000213 164239 52 chrUn_gl000220 161802 53 chrUn_gl000218 161147 54 chr19_gl000209_random 159169 55 chrUn_gl000221 155397 56 chrUn_gl000214 137718 57 chrUn_gl000228 129120 58 chrUn_gl000227 128374 59 chr1_gl000191_random 106433 60 chr19_gl000208_random 92689 61 chr9_gl000198_random 90085 62 chr17_gl000204_random 81310 63 chrUn_gl000233 45941 64 chrUn_gl000237 45867 65 chrUn_gl000230 43691 66 chrUn_gl000242 43523 67 chrUn_gl000243 43341 68 chrUn_gl000241 42152 69 chrUn_gl000236 41934 70 chrUn_gl000240 41933 71 chr17_gl000206_random 41001 72 chrUn_gl000232 40652 73 chrUn_gl000234 40531 74 chr11_gl000202_random 40103 75 chrUn_gl000238 39939 76 chrUn_gl000244 39929 77 chrUn_gl000248 39786 78 chr8_gl000196_random 38914 79 chrUn_gl000249 38502 80 chrUn_gl000246 38154 81 chr17_gl000203_random 37498 82 chr8_gl000197_random 37175 83 chrUn_gl000245 36651 84 chrUn_gl000247 36422 85 chr9_gl000201_random 36148 86 chrUn_gl000235 34474 87 chrUn_gl000239 33824 88 chr21_gl000210_random 27682 89 chrUn_gl000231 27386 90 chrUn_gl000229 19913 91 chrM 16571 92 chrUn_gl000226 15008 93 chr18_gl000207_random 4262