【问题标题】:Annotate positions using biomaRt使用 biomart 标注位置
【发布时间】:2016-02-23 17:24:30
【问题描述】:

我有一些基因组位置,我想使用 biomaRt R 包基于 Ensembl 注释这些位置(查找 Ensembl 基因 ID、外显子、内含子等特征)。

我的部分数据

  chr       start        stop     strand
chr10   100572320   100572373          -   
chr10   100572649   100572658          +   

【问题讨论】:

    标签: r bioinformatics bioconductor biomart


    【解决方案1】:

    准备数据以查询 biomaRt

    样本数据

    data = data.frame(chr = "chr17", start = 63973115, end = 64437414)
    data$query = paste(gsub("chr",'',data$chr),data$start,data$end, sep = ":")
    
    #> data
    #    chr    start      end                query
    #1 chr17 63973115 64437414 17:63973115:64437414
    

    那就用biomaRt

    library(biomaRt)
    
    # select your dataset of interest accordingly. 
    # I have used human specific dataset identifier
    # you can see all available datasets using listDatasets(mart),
    # after setting your mart of interest
    
    mart = useMart(
             'ENSEMBL_MART_ENSEMBL', 
              host = 'ensembl.org', 
              dataset = 'hsapiens_gene_ensembl')
    
    # do listAttributes(mart) to list all information you can extract using biomaRt
    
    out = getBM(
            attributes = c('ensembl_gene_id', 'external_gene_name', 'gene_biotype', 
                           'ensembl_transcript_id', 'ensembl_exon_id'), 
            filters = 'chromosomal_region', 
            values = data$query, 
            mart = mart)
    

    这将为您提供给定基因组位置中存在的基因、转录本和外显子的整体 ID。 biomaRt 提供了更多信息,所以不要忘记使用listAttributes() 了解所有信息。

    【讨论】:

    • 感谢 Veerendra 的帮助。但我也想知道这些位置位于哪些区域(Int​​ronic、exonic 或 Introgenic)。我找不到合适的属性。你能在这方面帮助我吗?
    • 正如我提到的,使用listAttributes() 来查找所有可用信息以进行提取。我认为您可以获得位于该区域内的外显子坐标。如果没有,您可以直接从 ensembl ftp 站点下载 gtf 文件并查看它。另一种选择是使用 GenomicFeatures 库。它允许您使用 biomart 构建自己的数据库,希望您可以从那里找到所需的所有信息。
    • 我认为您不会找到所有功能位置的直接注释,因此您将不得不稍微变通。为此,我发现 GenomicFeatures 库非常有用。你可以先看看它的手册。
    • 在 mart
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2021-03-14
    • 2014-04-11
    • 2021-01-19
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-06-11
    相关资源
    最近更新 更多