欢迎关注"生信修炼手册"!
1000 Genome Project 的目标是发现在人群中频率大于1%的变异位点,对来自不同人群的大量样本进行测序,识别到了许多的变异位点,为人类遗传变异的研究提供了一个综合的资源。
整个项目划分为四个阶段,试点阶段和三个主要阶段,主要阶段中只有第一阶段和第三阶段产生了数据,每个阶段数据的详细情况如下图所示
整个项目从2008年开始到2013年结束,最终的版本为2013年5月2日发布的数据, 包含了来自26个人群,共2504个样本的SNP分型结果。1000G的数据是免费公开的,可以通过ftp下载得到,网址如下
ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/
26个不同的群体,用3个字母的缩写表示,具体情况如下
| Code | Des | Detail |
|---|---|---|
| CHB | Han Chinese | Han Chinese in Beijing, China |
| JPT | Japanese | Japanese in Tokyo, Japan |
| CHS | Southern Han Chinese | Han Chinese South |
| CDX | Dai Chinese | Chinese Dai in Xishuangbanna, China |
| KHV | Kinh Vietnamese | Kinh in Ho Chi Minh City, Vietnam |
| CHD | Denver Chinese | Chinese in Denver, Colorado (pilot 3 only) |
| CEU | CEPH | Utah residents (CEPH) with Northern and Western European ancestry |
| TSI | Tuscan | Toscani in Italia |
| GBR | British | British in England and Scotland |
| FIN | Finnish | Finnish in Finland |
| IBS | Spanish | Iberian populations in Spain |
| YRI | Yoruba | Yoruba in Ibadan, Nigeria |
| LWK | Luhya | Luhya in Webuye, Kenya |
| GWD | Gambian | Gambian in Western Division, The Gambia |
| MSL | Mende | Mende in Sierra Leone |
| ESN | Esan | Esan in Nigeria |
| ASW | African-American SW | African Ancestry in Southwest US |
| ACB | African-Caribbean | African Caribbean in Barbados |
| MXL | Mexican-American | Mexican Ancestry in Los Angeles, California |
| PUR | Puerto Rican | Puerto Rican in Puerto Rico |
| CLM | Colombian | Colombian in Medellin, Colombia |
| PEL | Peruvian | Peruvian in Lima, Peru |
| GIH | Gujarati | Gujarati Indian in Houston, TX |
| PJL | Punjabi | Punjabi in Lahore, Pakistan |
| BEB | Bengali | Bengali in Bangladesh |
| STU | Sri Lankan | Sri Lankan Tamil in the UK |
| ITU | Indian | Indian Telugu in the UK |
对于这26个群体,归属于5个不同的super population
| Population Code | Description |
|---|---|
| EAS | East Asian |
| SAS | South Asian |
| AFR | African |
| EUR | European |
| AMR | American |
除了通过FTP直接下载以外,还可以通过以下两种方式下载:
1. Aspera
由于1000G的数据量比较大,通常通过Aspera 进行下载,命令如下
ascp -i bin/aspera/etc/asperaweb_id_dsa.openssh -Tr -Q -l 100M -P33001 -L- [email protected]:vol1/ftp/release/20100804/ALL.2of4interp.20100804.genotypes.vcf.gz ./
2. Globus
Globus 是一个软件,通过这个软件可以方便的管理和分发数据,官网如下:
https://www.globus.org/
首先需要注册一个账号,然后要下载软件才可以使用,和百度网盘的使用体验类似。
通常情况下使用Aspera就可以了。
1000G和hapmap都是对不同人群大量样本测试,然后鉴定变异位点。和hapmap相比,1000G无论是样本数量,还是变异位点的数量,都更具优势,所以使用1000G的科研工作者更多。随着hapmap官网的关闭,1000G完全取代了hapmap。
1000G中发现的SNP位点信息都提交到了dbSNP数据库,SV结构变异位点信息都提交到了DGVA数据库。
扫描关注微信号,更多精彩内容等着你!