【发布时间】:2015-12-12 18:52:41
【问题描述】:
我有一个表达矩阵,即一个包含一些基因在不同人类样本中的表达水平的矩阵,并且有一些样本是重复的,所以我需要结合这些重复中的表达并计算中位数。 我将样本的名称作为行,在每一列中我都有一个基因的表达。 (我有大约 200,000 个基因,所以大约有 200,000 列)。 第一列如下所示:
Adipocyte - breast, donor1
Adipocyte - breast, donor2
Adipocyte - omental, donor1
Adipocyte - omental, donor2
Adipocyte - omental, donor3
Alveolar Epithelial Cells, donor1
Alveolar Epithelial Cells, donor2
Amniotic Epithelial Cells, donor1
Amniotic Epithelial Cells, donor3
其余列对应数字(不同基因的表达)。
所以我认为我需要首先编写一个正则表达式来抓取那些在昏迷之前相等的行,以便它捕获相同细胞类型的不同供体,然后计算每个基因表达的中位数。
关于如何做到这一点的任何想法?
【问题讨论】:
-
这些是行名,矩阵的其余部分是数字吗?或者这是第一列,在这种情况下您的矩阵将不是数字?还是你有一个数据框?
-
它是一列,而不是行名。 row.names 是包含每个样本代码的另一列。 (但我可以改变它)。其余为数字