【问题标题】:How do I call a data frame by Gene IDs from RNAseq data in R when gene names are duplicated?当基因名称重复时,如何通过 R 中的 RNAseq 数据中的基因 ID 调用数据框?
【发布时间】:2015-10-23 19:48:30
【问题描述】:

我有一个 .csv 文件,其中包含第一列中的基因名称和后续列中每个患者每个基因的“每百万转录本”计数。读取了 56,632 个基因,并且似乎有许多重复的基因 ID。我的数据矩阵示例如下:

Gene_ID     UniIEC01    UniIEC02    UniIEC03    UniIEC04    UniIEC05
TSPAN6        1.45        1.30        1.53        1.35        1.50
TNMD         -2.00       -2.00       -2.00       -2.00        0.29
DPM1          0.76        1.06        1.37        0.90        1.26
SCYL3        -0.43        0.67        0.43        0.71        0.23
C1orf112     -0.43        0.18        0.14        0.74        0.06
FGR          -2.00       -2.00       -2.00        0.29       -2.00
CFH          -2.00       -0.92       -2.00       -0.42       -2.00

我为“read.table”尝试了以下方法并遇到了以下问题:

(1) 手动添加数字为“row.names”的列,并将“row.names”分配给该列。 问题:然后我无法通过基因名称调用数据。我有一些我想调用的 200 多个基因的列表,要找到其中每个基因的行号太费力了。 (2) 在表格中读取时,我设置了具有正确格式的“row.names=NULL”。 问题:当我尝试使用

调用数据时
"data.frame["TSPAN6":"TNMD",1:5] 

我收到错误消息:“强制引入的 NA”,除患者编号外的所有单元格都返回为“NA”。

谁能帮我解决这个问题?

我的最终目标是使用 56,632 个基因中的特定基因组创建热图。

谢谢!

阿凡提卡

【问题讨论】:

    标签: r macos


    【解决方案1】:

    您可以通过以下方式获得您想要的基因:

    gene_list <- c('CNTF', 'CFH', 'TSPAN6')
    df[df$Gene_ID %in% gene_list, ]
    

    gplots 包中的heatmap.2() 是更流行的热图制作方法之一。

    说了这么多,你可能应该回去弄清楚为什么你有重复的基因名称。我猜它是每个基因的多个亚型。在这种情况下,如果您想在基因水平上进行量化,您需要从原始计数中重新计算每百万的成绩单。但是这个问题不是堆栈溢出。尝试 biostars.org 询问如何重新计算这些值。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2020-04-02
      • 1970-01-01
      • 2017-03-20
      • 1970-01-01
      • 1970-01-01
      • 2018-10-19
      • 2020-09-25
      相关资源
      最近更新 更多