各类基因ID转换
基因ID分类
- Ensembl的目标是为遗传学家,分子生物学家和其他研究人员研究我们自己的物种和其他脊椎动物和模式生物的基因组而提供集中的资源。Ensembl是几个知名的基因组浏览器之一,用于检索基因组学信息。
-
相似的数据库和浏览器还被发现在美国国家生物技术信息中心(National Center for Biotechnology Information,简称NCBI)(Entrez ID).
- Entrez ID实际上是指的Entrez gene ID,是对应于染色体上一个gene
location的。每一个发现的基因都会被编制一个统一的编号,而Entrez ID是指的来自于NCBI旗下的Entrez gene数据库所使用的编号。每个基因的编号具有唯一性,包括不同种属生物间的同源基因编号也不相同,例如同样是TP53基因,人源TP53的Entrez ID为7157,zebrafish源的Entrez ID为30590,chichen源的Entrez ID为396200。 - Entrez是什么:Entrez是一个综合性生物信息数据检索引擎,包含核酸、蛋白质、基因、基因组、GEO、pubMed等很多常用的数据库,可以将其类比为百度,正如百度也有百度图片、百度新闻、百度文库、百度学术等等子项目一样。我们需要搜索什么样的信息就使用相应的子数据库,也可以直接在Entrez中搜索,那么Entrez将给出所有数据库中的检索信息。
实际上我们说去NCBI上检索一下时所称呼的NCBI往往就是指的Entrez,不过事实上这两个词是不对等的,因为NCBI实际上是一个组织,而Entrez是一个综合的生信检索引擎。
- Entrez ID实际上是指的Entrez gene ID,是对应于染色体上一个gene
加州大学圣克鲁兹分校的UCSC基因组浏览器。
基因ID对应关系
(Jimmy大神总结http://www.bio-info-trainee.com/1469.html)
首先说明:hg19、GRCH37、 ensembl 75这3种基因组版本应该是大家见得比较多的了,国际通用的人类参考基因组,其实他们储存的是同样的fasta序列,只是分别对应着三种国际生物信息学数据库资源收集存储单位,即NCBI,UCSC及ENSEMBL各自发布的基因组信息而已。
* 首先是NCBI对应UCSC,对应ENSEMBL数据库:
GRCh36 (hg18): ENSEMBL release_52.
GRCh37 (hg19): ENSEMBL release_59/61/64/68/69/75.
GRCh38 (hg38): ENSEMBL release_76/77/78/80/81/82.
可以看到ENSEMBL的版本特别复杂!!!很容易搞混!
但是UCSC的版本就简单了,就hg18,19,38, 常用的是hg19,但是我推荐大家都转为hg38
看起来NCBI也是很简单,就GRCh36,37,38,但是里面水也很深!
Feb 13 2014 00:00 Directory April_14_2003
Apr 06 2006 00:00 Directory BUILD.33
Apr 06 2006 00:00 Directory BUILD.34.1
Apr 06 2006 00:00 Directory BUILD.34.2
Apr 06 2006 00:00 Directory BUILD.34.3
Apr 06 2006 00:00 Directory BUILD.35.1
Aug 03 2009 00:00 Directory BUILD.36.1
Aug 03 2009 00:00 Directory BUILD.36.2
Sep 04 2012 00:00 Directory BUILD.36.3
Jun 30 2011 00:00 Directory BUILD.37.1
Sep 07 2011 00:00 Directory BUILD.37.2
Dec 12 2012 00:00 Directory BUILD.37.3
可以看到,有37.1, 37.2, 37.3 等等,不过这种版本一般指的是注释在更新,基因组序列一般不会更新!!!
* 反正你记住hg19基因组大小是3G,压缩后八九百兆即可!!!
如果要下载GTF注释文件,基因组版本尤为重要!!!
对NCBI:ftp://ftp.ncbi.nih.gov/genomes/H_sapiens/GFF/ ##最新版(hg38)
ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/ ## 其它版本
* 对于ensembl:
ftp://ftp.ensembl.org/pub/release-75/gtf/homo_sapiens/Homo_sapiens.GRCh37.75.gtf.gz
变幻中间的release就可以拿到所有版本信息:ftp://ftp.ensembl.org/pub/
对于UCSC,那就有点麻烦了:
需要选择一系列参数:
http://genome.ucsc.edu/cgi-bin/hgTables
1. Navigate to http://genome.ucsc.edu/cgi-bin/hgTables
2. Select the following options:
clade: Mammal
genome: Human
assembly: Feb. 2009 (GRCh37/hg19)
group: Genes and Gene Predictions
track: UCSC Genes
table: knownGene
region: Select “genome” for the entire genome.
output format: GTF - gene transfer format
output file: enter a file name to save your results to a file, or leave blank to display results in the browser
3. Click ‘get output’.
现在重点来了,搞清楚版本关系了,就要下载呀!
UCSC里面下载非常方便,只需要根据基因组简称来拼接url即可:
http://hgdownload.cse.ucsc.edu/goldenPath/mm10/bigZips/chromFa.tar.gz
http://hgdownload.cse.ucsc.edu/goldenPath/mm9/bigZips/chromFa.tar.gz
http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz
http://hgdownload.cse.ucsc.edu/goldenPath/hg38/bigZips/chromFa.tar.gz
或者用shell脚本指定下载的染色体号:
for i in
wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr${i}.fa.gz;
这里也可以用NCBI的:ftp://ftp.ncbi.nih.gov/genomes/M_musculus/ARCHIVE/MGSCv3_Release3/Assembled_Chromosomes/chr前缀
done
gunzip *.gz
for i in
done
rm -fr chr*.fasta
如何搜索Entrez ID
搜索基因的相关情况,可以使用Entrez Gene数据库进行检索,如下图所示,选择Gene数据库,并将感兴趣的基因的名称或ID键入,点击搜索即可。
如果键入的是Gene名称
其实更准确地说,如果键入的是Gene symbol,那么就会出现一个检索列表,如图所示,列表里面是各种物种的此基因的记录。根据物种选择相应的条目点击查看即可。
如果键入的是Gene ID
如果键入的是Gene ID,那么会直接跳转进入相应的基因页面,如下图,一个Entrez Gene记录,会包含多种基因信息:gene symbol、基因名称、种属、Entrez gene ID及Ensemble gene ID等。
各种Gene ID间的转换
在生信数据的预处理阶段,常会遇见各种Gene ID之间的转换如Entrez gene ID与Ensembl gene ID之间的转换,或者gene ID与gene symbol之间的转换。
转换可以使用网上工具完成,如DAVID的ID Conversion Tool、bioDBnet或ENSEMBL的bioMart转换工具。下面我就DAVID的ID转换工具进行演示:
DAVID ID转换工具的实际演示
任务 将一组Ensembl Gene ID转换为Entrez Gene ID,Gene列表如下
1.打开DAVID ID转换工具
打开DAVID,并进入Gene ID转换工具。
2.上传序列
按照图示步骤进行即可,尤其需要注意的是,此时一定不要点击右侧的option1的提交,也不用管option1里面的Gene ID类型。否则,序列都没有上传,更不要谈ID转换了。
3.选择物种信息
有时输入的序列并不能被完全识别,这一定程度上和各个Gene ID数据库的版本有关系,因此在此页面内可以选择一下物种信息。如图所示,输入的8个ID还是被全部识别出来了。
重要 假如是要将Gene Symbol转换成各种Gene ID,此处的物种是必选项,按需选择。
4.选择ID转换工具
上一步结束后,请在结果页面中按照本图示进行操作,进入ID转换工具。
DAVID的操作逻辑 先将你的序列上传,然后选择物种信息,必要时还有背景信息,经过这几步之后,你就可以选择各种工具对你的序列进行分析和转换了。
5.进行ID转换
先选择要转换成的Gene ID类型,然后点击提交即可。
6.转换结果
如图示,Ensembl Gene ID已经转换为Entrez Gene ID。
什么鬼,Gene ID的版本问题
同一个ensemble ID在不同版本genecode中代表不同的基因
同样是ENSG00000211563,基因Symbol有MIR338、AC115099.1等。
注意 Ensembl Gene ID编号末尾的小数点后面的数字代表版本。
同一个基因在不同版本genecode中的结果不同
同样是MIR338基因,存在多种Ensembl Gene ID
因此考虑到Gene ID的版本复杂度,在实际的Gene ID转换以及对Gene ID进行相关分析时,一定要密切关注ID版本号有可能带来的错误。
参考
1.简述几种Gene ID的转换方法
2.#TCGA系列#使用HGNC数据库对miRNA名称ID进行转换http://www.jianshu.com/p/07663121c0d0
3.https://vip.biotrainee.com/d/109-entrez-id
4.http://www.bio-info-trainee.com/1469.html
5.http://mp.weixin.qq.com/s?__biz=MzAxMDkxODM1Ng==&mid=2247483738&idx=1&sn=bd57965cf960293837671b315b35c4d4&chksm=9b4841e1ac3fc8f7d4102f1b07abce8d805542ef56b25c5aab21fb587276170d7a1ef8a6ab8a&scene=21#wechat_redirect