【问题标题】:Using SVM for gene expression analysis使用 SVM 进行基因表达分析
【发布时间】:2013-05-19 10:24:48
【问题描述】:

我的问题:

a) 我得到了 1000 个基因在 6 个时间点的表达数据集。

b) 一些基因 (testing set) 属于某个类别,其特征是基因表达在这些时间点上的分布。

c) 我还有一个此类已知基因的数据集 (training set)。

d) 此外,我想通过随机重组我的测试集来生成false 数据集,并将该数据集包含在我的 SVM 模型中。

我想我知道如何使用Re1071 包来执行(a)-(c),但我不确定如何实现(d)。我应该只用计算模型测试我的false 数据,然后比较这个数据集和test set 的结果吗?

我应该使用哪些分布进行比较? (paretro 或者 universal gamma 提供我计算的概率?)

【问题讨论】:

  • 最后得到一个比较假数据和测试数据的分数是完美的! ; )

标签: r svm


【解决方案1】:

我会考虑两种方法:

  1. 按照您的建议,运行您的错误集(或者更确切地说,多个排列,即多个错误集)作为 SVM 中的附加测试集,并将分数与真实测试集进行比较。从本质上讲,您希望证明您的真实测试集的性能明显优于大多数错误集。这将本着统计测试的精神,例如在this paper 中描述的更复杂的数据。此外,this paper 可能有助于使用分箱方法将 SVM 分数转换为校准概率。

  2. 使用false 集的子集作为第二个训练集构建一个二类 SVM。然后,分类任务将是确定您的基因表达模式更可能属于哪个类别:“阳性”类别或“假”类别。 This paperthis threadthis thread 以及一般的 SVM 教科书可能有助于决定如何最好地设计这个二分类器。

希望对您有所帮助。

【讨论】:

  • 谢谢,我会尝试让 svm 运行并可能会打开另一个线程。我会检查纸张和线程。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2016-12-01
  • 2013-03-23
  • 1970-01-01
  • 1970-01-01
  • 2013-07-16
  • 2013-02-04
  • 2016-09-13
相关资源
最近更新 更多