【发布时间】:2017-11-10 11:31:58
【问题描述】:
我正在尝试使用 sklearn 中的 SVM 来解决分类问题。我得到了一个高度稀疏的数据集,其中包含超过 50K 行和二进制输出。
问题是我不太清楚如何有效地选择参数,主要是内核,gamma anc C。
例如,对于内核,我是否应该尝试所有内核并只保留给我最满意结果的内核,还是在选择内核之前我们可以首先看到与我们的数据相关的内容? C 和 gamma 也是如此。
谢谢!
【问题讨论】:
-
“高度稀疏的数据集”是什么意思?数据集只能相对于参考空间是“稀疏的”,而您没有给出任何数据集。此外,一点知道您有多少功能(列)会有所帮助。
-
您可以使用GridSearchCV进行超参数搜索。
标签: python machine-learning scikit-learn svm