处理基因组数据,很多时候我们会觉得直接看序列文件不够直观,如果绘图的话,把n多G把数据用画图出来不仅费劲,就算操作也不方便。因此我们可以用UCSC开发出的genome browser,可以直接把数据信息写成track,连上genome browser 上查看,它还支持安装到本地服务器上(genome browser in box ,简称GBIB),genome browser 支持的格式有bedGraph, GTF, PSL, BED, bigBed, WIG, bigGenePred, bigMaf, bigChain, bigPsl, bigWig, BAM, CRAM, VCF, MAF, BED detail, Personal Genome SNP, broadPeak, narrowPeak, and microarray (BED15),GFF和GTF文件必须tab分隔。 废话少说,直接入门。本文主要讲SAM,BAM,WIG,bigWig,VCF,BED文件上传及使用。

 

    一、格式的前期处理

      1.1    WIG 和 bigWig

      WIG 文件格式,有两种可选的格式,variableStep和fixedStep。variableStep用于区间变化的,fixedStep用于区间固定的。

      variableStep WIG文件以variableStep 开头,chrom染色体,可选参数span(默认span=1),指定每一行的位置区间,比如2,区间就是chromStart~chromStart+2。chromStart染色体位置,dataValue染色体位置上的值。

1 variableStep  chrom=chrN
2 [span=windowSize]
3 chromStartA  dataValueA
4 chromStartB  dataValueB
5 ... etc ...  ... etc ...

      fixedStep文件以fixedStep开头,chrom染色体,start是起始固定的位置,step是每两个起始position之间的间隔,span和variableStep中的step一样,指定每一行的位置区间。

这样dataValue1对应的position是start~start+span,dataValue2对应的position是start+step~start+step+span.

1 fixedStep  chrom=chrN
2 start=position  step=stepInterval
3 [span=windowSize]
4 dataValue1
5 dataValue2
6 ... etc ...

    WIG格式要在genome browser 上查看最好转换为bigWig文件,bigWig文件是index后的二进制WIG文件,在genome browser上查看更加快速,用wigToBigWig命令

1 wigToBigWig sample.wig chrom.sizes output.bw

    chromsizes 文件可以从UCSC上下载,就是各个染色体的长度大小hg19.chrom.sizes可以从这里直接复制。

 1 chr1    249250621
 2 chr2    243199373
 3 chr3    198022430
 4 chr4    191154276
 5 chr5    180915260
 6 chr6    171115067
 7 chr7    159138663
 8 chrX    155270560
 9 chr8    146364022
10 chr9    141213431
11 chr10    135534747
12 chr11    135006516
13 chr12    133851895
14 chr13    115169878
15 chr14    107349540
16 chr15    102531392
17 chr16    90354753
18 chr17    81195210
19 chr18    78077248
20 chr20    63025520
21 chrY    59373566
22 chr19    59128983
23 chr22    51304566
24 chr21    48129895
25 chr6_ssto_hap7    4928567
26 chr6_mcf_hap5    4833398
27 chr6_cox_hap2    4795371
28 chr6_mann_hap4    4683263
29 chr6_apd_hap1    4622290
30 chr6_qbl_hap6    4611984
31 chr6_dbb_hap3    4610396
32 chr17_ctg5_hap1    1680828
33 chr4_ctg9_hap1    590426
34 chr1_gl000192_random    547496
35 chrUn_gl000225    211173
36 chr4_gl000194_random    191469
37 chr4_gl000193_random    189789
38 chr9_gl000200_random    187035
39 chrUn_gl000222    186861
40 chrUn_gl000212    186858
41 chr7_gl000195_random    182896
42 chrUn_gl000223    180455
43 chrUn_gl000224    179693
44 chrUn_gl000219    179198
45 chr17_gl000205_random    174588
46 chrUn_gl000215    172545
47 chrUn_gl000216    172294
48 chrUn_gl000217    172149
49 chr9_gl000199_random    169874
50 chrUn_gl000211    166566
51 chrUn_gl000213    164239
52 chrUn_gl000220    161802
53 chrUn_gl000218    161147
54 chr19_gl000209_random    159169
55 chrUn_gl000221    155397
56 chrUn_gl000214    137718
57 chrUn_gl000228    129120
58 chrUn_gl000227    128374
59 chr1_gl000191_random    106433
60 chr19_gl000208_random    92689
61 chr9_gl000198_random    90085
62 chr17_gl000204_random    81310
63 chrUn_gl000233    45941
64 chrUn_gl000237    45867
65 chrUn_gl000230    43691
66 chrUn_gl000242    43523
67 chrUn_gl000243    43341
68 chrUn_gl000241    42152
69 chrUn_gl000236    41934
70 chrUn_gl000240    41933
71 chr17_gl000206_random    41001
72 chrUn_gl000232    40652
73 chrUn_gl000234    40531
74 chr11_gl000202_random    40103
75 chrUn_gl000238    39939
76 chrUn_gl000244    39929
77 chrUn_gl000248    39786
78 chr8_gl000196_random    38914
79 chrUn_gl000249    38502
80 chrUn_gl000246    38154
81 chr17_gl000203_random    37498
82 chr8_gl000197_random    37175
83 chrUn_gl000245    36651
84 chrUn_gl000247    36422
85 chr9_gl000201_random    36148
86 chrUn_gl000235    34474
87 chrUn_gl000239    33824
88 chr21_gl000210_random    27682
89 chrUn_gl000231    27386
90 chrUn_gl000229    19913
91 chrM    16571
92 chrUn_gl000226    15008
93 chr18_gl000207_random    4262
genome.sizes

相关文章:

  • 2021-04-17
  • 2021-12-30
  • 2021-05-15
  • 2021-10-07
  • 2021-06-01
  • 2021-09-26
  • 2021-04-06
  • 2022-12-23
猜你喜欢
  • 2022-12-23
  • 2021-10-31
  • 2022-12-23
  • 2021-07-30
  • 2021-06-11
  • 2022-12-23
  • 2021-10-21
相关资源
相似解决方案