【发布时间】:2017-05-27 01:55:07
【问题描述】:
我是机器学习的新手。我正在对一堆特征进行特征选择,一些算法给了我所有特征的排名。然后我尝试只使用最上面的一个特征来训练模型,结果交叉验证性能非常好。但我担心只使用一个特征来训练 SVM 模型是否合适。 (我使用的是 RBF 内核。) 谢谢。
【问题讨论】:
-
使用更多功能时性能是否更好?
标签: svm
我是机器学习的新手。我正在对一堆特征进行特征选择,一些算法给了我所有特征的排名。然后我尝试只使用最上面的一个特征来训练模型,结果交叉验证性能非常好。但我担心只使用一个特征来训练 SVM 模型是否合适。 (我使用的是 RBF 内核。) 谢谢。
【问题讨论】:
标签: svm
是的,没关系。 基本上,您使用的功能越少越好。 特征的数量必须远少于训练向量的数量。至少减少 100 倍。
但是如果在你的情况下你的 C 值非常大而 G 值非常小(即可能你有一个非常过拟合的模型),你可能需要添加更多特征。
不要忘记 Jaakkola 的 G 估计启发式: http://image.diku.dk/shark/sphinx_pages/build/html/rest_sources/tutorials/algorithms/svmModelSelection.html#jaakkola-s-heuristic
并且一定要使用交叉验证和保留验证来避免过度拟合。
我推荐以下书籍: Max Kuhn • Kjell Johnson,应用预测建模。 ISBN 978-1-4614-6848-6 ISBN 978-1-4614-6849-3(电子书) DOI 10.1007/978-1-4614-6849-3 施普林格纽约海德堡多德雷赫特伦敦
最好的问候, 尼克。
【讨论】: