【发布时间】:2011-02-16 01:01:26
【问题描述】:
首先,这可能是这个问题的错误论坛,因为它非常适合 R+Bioconductor。这是我所拥有的:
library('GEOquery')
GDS = getGEO('GDS785')
cd4T = GDS2eSet(GDS)
cd4T <- cd4T[!fData(cd4T)$symbol == "",]
现在 cd4T 是一个 ExpressionSet 对象,它包含一个包含 19794 行(探针)和 15 列(样本)的大矩阵。最后一行去掉了所有没有相应基因符号的探针集。现在的问题是,这组中的大多数基因都分配给了多个探针组。您可以通过这样做来看到这一点
gene_symbols = factor(fData(cd4T)$Gene.symbol)
length(gene_symbols)-length(levels(gene_symbols))
[1] 6897
所以我的 19794 个探针组中只有 6897 个具有独特的探针组 -> 基因图谱。我想以某种方式组合与每个基因相关的每个探针组的表达水平。我不太关心每个探针的实际探针 ID。我非常希望最终得到一个包含合并信息的 ExpressionSet,因为我的所有下游分析都旨在与此类一起使用。
我想我可以编写一些代码来手动完成这项工作,并从头开始制作一个新的表达式集。但是,我假设这不是一个新问题,并且存在代码来完成它,使用统计上合理的方法来组合基因表达水平。我猜这也有一个合适的名称,但我的谷歌并没有显示出太多用处。有人可以帮忙吗?
【问题讨论】:
-
你应该试试 biostar.stackexchange.com - 这是一个 StackOverflow 类型的网站,专门用于解决生物信息学问题。
-
(虽然我认为这也是一个合适的问题)。
-
酷 - 也将它放在 biostar 上。
-
得到了一些很棒的讨论,包括来自 geoff(下)在 biostar biostar.stackexchange.com/questions/961/… 上的更多讨论。看看吧!
标签: r bioconductor