【问题标题】:How can I convert gene names (hgnc_symbol) to Ensemble IDs in R? "bioconductor-biomaRt"如何将基因名称(hgnc_symbol)转换为 R 中的 Ensemble ID? “生物导体-biomart”
【发布时间】:2015-10-12 21:05:18
【问题描述】:

我有一个基因列表作为我的 eset 的行名,我想将它们转换为 Ensembl 基因 ID。 我在 bioMart 包中使用了 getGene,但对于某些基因,它使用了两次相同的名称! 这是我的代码的一个小例子:

library (biomaRt)
rownames(eset)
[1] "EPC1"   "MYO3A"  "PARD3"  "ATRNL1" "GDF2"   "IL10RA" "GAD2"   "CCDC6"

getGene(rownames(eset),type='hgnc_symbol',mart)[c(1,9)]

# [1] is the hgnc_symbol to recheck the matched data
# [9] is the ensemble_gene_id

   hgnc_symbol ensembl_gene_id
    1      ATRNL1 ENSG00000107518
    2       CCDC6 ENSG00000108091
    3        EPC1 ENSG00000120616
    4        GAD2 ENSG00000136750
    5        GDF2 ENSG00000263761
    6      IL10RA ENSG00000110324
    7      IL10RA         LRG_151
    8       MYO3A ENSG00000095777
    9       PARD3 ENSG00000148498

如您所见,hgnc_symbol 列中有两个“IL10RA”条目;但我在行名(eset)中只有一个“IL10RA”;当我想将 Ensembl_ID 添加到 fData(eset) 时,这最终会导致问题! 我怎么解决这个问题? 得到这样的结果:

 hgnc_symbol ensembl_gene_id
    1      ATRNL1 ENSG00000107518
    2       CCDC6 ENSG00000108091
    3        EPC1 ENSG00000120616
    4        GAD2 ENSG00000136750
    5        GDF2 ENSG00000263761
    6      IL10RA ENSG00000110324
    7       MYO3A ENSG00000095777
    8       PARD3 ENSG00000148498

提前致谢,

【问题讨论】:

    标签: r bioinformatics bioconductor genetic


    【解决方案1】:

    我通过 !duplicated 在eset 中找到了解决方案。 像这样的:

    g_All <- getGene(id = rownames(eset)),type='hgnc_symbol',mart)
    g_All <- g_All[!duplicated(g_All[,1]),]
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2015-04-17
      • 2022-01-23
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2017-02-28
      相关资源
      最近更新 更多