【发布时间】:2015-10-23 19:48:30
【问题描述】:
我有一个 .csv 文件,其中包含第一列中的基因名称和后续列中每个患者每个基因的“每百万转录本”计数。读取了 56,632 个基因,并且似乎有许多重复的基因 ID。我的数据矩阵示例如下:
Gene_ID UniIEC01 UniIEC02 UniIEC03 UniIEC04 UniIEC05
TSPAN6 1.45 1.30 1.53 1.35 1.50
TNMD -2.00 -2.00 -2.00 -2.00 0.29
DPM1 0.76 1.06 1.37 0.90 1.26
SCYL3 -0.43 0.67 0.43 0.71 0.23
C1orf112 -0.43 0.18 0.14 0.74 0.06
FGR -2.00 -2.00 -2.00 0.29 -2.00
CFH -2.00 -0.92 -2.00 -0.42 -2.00
我为“read.table”尝试了以下方法并遇到了以下问题:
(1) 手动添加数字为“row.names”的列,并将“row.names”分配给该列。 问题:然后我无法通过基因名称调用数据。我有一些我想调用的 200 多个基因的列表,要找到其中每个基因的行号太费力了。 (2) 在表格中读取时,我设置了具有正确格式的“row.names=NULL”。 问题:当我尝试使用
调用数据时"data.frame["TSPAN6":"TNMD",1:5]
我收到错误消息:“强制引入的 NA”,除患者编号外的所有单元格都返回为“NA”。
谁能帮我解决这个问题?
我的最终目标是使用 56,632 个基因中的特定基因组创建热图。
谢谢!
阿凡提卡
【问题讨论】: