R + Bioconductor：在 ExpressionSet 中组合探针集答案

【问题标题】：R + Bioconductor : combining probesets in an ExpressionSetR + Bioconductor：在 ExpressionSet 中组合探针集
【发布时间】：2011-02-16 01:01:26
【问题描述】：

首先，这可能是这个问题的错误论坛，因为它非常适合 R+Bioconductor。这是我所拥有的：

library('GEOquery')
GDS = getGEO('GDS785')
cd4T = GDS2eSet(GDS)
cd4T <- cd4T[!fData(cd4T)$symbol == "",]

现在 cd4T 是一个 ExpressionSet 对象，它包含一个包含 19794 行（探针）和 15 列（样本）的大矩阵。最后一行去掉了所有没有相应基因符号的探针集。现在的问题是，这组中的大多数基因都分配给了多个探针组。您可以通过这样做来看到这一点

gene_symbols = factor(fData(cd4T)$Gene.symbol)
length(gene_symbols)-length(levels(gene_symbols))
[1] 6897

所以我的 19794 个探针组中只有 6897 个具有独特的探针组 -> 基因图谱。我想以某种方式组合与每个基因相关的每个探针组的表达水平。我不太关心每个探针的实际探针 ID。我非常希望最终得到一个包含合并信息的 ExpressionSet，因为我的所有下游分析都旨在与此类一起使用。

我想我可以编写一些代码来手动完成这项工作，并从头开始制作一个新的表达式集。但是，我假设这不是一个新问题，并且存在代码来完成它，使用统计上合理的方法来组合基因表达水平。我猜这也有一个合适的名称，但我的谷歌并没有显示出太多用处。有人可以帮忙吗？

【问题讨论】：

你应该试试 biostar.stackexchange.com - 这是一个 StackOverflow 类型的网站，专门用于解决生物信息学问题。
（虽然我认为这也是一个合适的问题）。
酷 - 也将它放在 biostar 上。
得到了一些很棒的讨论，包括来自 geoff（下）在 biostar biostar.stackexchange.com/questions/961/… 上的更多讨论。看看吧！

标签： r bioconductor

【解决方案1】：

我不是专家，但根据我多年来所见，每个人都有自己最喜欢的探头组合方式。我见过的大规模使用最多的两种方法是仅使用在表达式矩阵中具有最大方差的探针集，另一种是取探针集的平均值并从中创建元探针集.对于较小的探针组，我看到人们使用更密集的方法，包括查看每个探针图来了解正在发生的事情……通常情况是一个探针组结果是“好”的一个，而休息不是很好。

我还没有看到执行此操作的通用代码 - 例如，我们最近在我的实验室中意识到，我们中的一些人拥有自己的私有函数来执行相同的操作。

【讨论】：

【解决方案2】：

您要查找的单词是 R 基因过滤器包中的“nsFilter”。这个函数分配了两个主要的东西，它只寻找entrez基因ids，其余的probesets将被过滤掉。当一个entrez id 有多个probesets 时，最大的值会被保留，其他的会被移除。现在你有了唯一的 entrez 基因 id 映射矩阵。希望这会有所帮助。

【讨论】：