使用 SVM 进行基因表达分析答案

【问题标题】：Using SVM for gene expression analysis使用 SVM 进行基因表达分析
【发布时间】：2013-05-19 10:24:48
【问题描述】：

我的问题：

a) 我得到了 1000 个基因在 6 个时间点的表达数据集。

b) 一些基因 (testing set) 属于某个类别，其特征是基因表达在这些时间点上的分布。

c) 我还有一个此类已知基因的数据集 (training set)。

d) 此外，我想通过随机重组我的测试集来生成false 数据集，并将该数据集包含在我的 SVM 模型中。

我想我知道如何使用R 和e1071 包来执行(a)-(c)，但我不确定如何实现(d)。我应该只用计算模型测试我的false 数据，然后比较这个数据集和test set 的结果吗？

我应该使用哪些分布进行比较？（paretro 或者 universal gamma 提供我计算的概率？）

【问题讨论】：

标签： r svm

【解决方案1】：

我会考虑两种方法：

按照您的建议，运行您的错误集（或者更确切地说，多个排列，即多个错误集）作为 SVM 中的附加测试集，并将分数与真实测试集进行比较。从本质上讲，您希望证明您的真实测试集的性能明显优于大多数错误集。这将本着统计测试的精神，例如在this paper 中描述的更复杂的数据。此外，this paper 可能有助于使用分箱方法将 SVM 分数转换为校准概率。
使用false 集的子集作为第二个训练集构建一个二类 SVM。然后，分类任务将是确定您的基因表达模式更可能属于哪个类别：“阳性”类别或“假”类别。 This paper、this thread 和 this thread 以及一般的 SVM 教科书可能有助于决定如何最好地设计这个二分类器。

希望对您有所帮助。

【讨论】：