【发布时间】:2014-01-09 04:06:25
【问题描述】:
我有由 940 个属性和 450 个实例构建的数据集,我正在尝试找到最佳分类器以获得最佳结果。 WEKA推荐的每一个分类器我都用过(比如J48、costSensitive、combinatin of several classifier等) 我发现的最佳解决方案是 J48 树,准确度为 91.7778 % 混淆矩阵为:
394 27 | a = NON_C
10 19 | b = C
我想在 TN 和 TP 的混淆矩阵中获得更好的结果,每个结果至少有 90% 的准确度。 我可以做些什么来改进这一点(例如扫描所有选项的长时间运行分类器?我没有想到的其他想法? 这是文件:
https://googledrive.com/host/0B2HGuYghQl0nWVVtd3BZb2Qtekk/
请帮忙!!
【问题讨论】:
-
你试过支持向量机吗?当您有很多输入维度时(以及您正在使用的
n<p-scenario),它们工作得很好。 -
@MarcClaesen 是的,我已经尝试过 SVMlib 和 SVMlinear,我应该选择哪些选项?什么是 n
-
@MarcClaesen 这里的问题是特征数量高于实例数量 - 所以 SVM 不会是最好的工具
-
@xhudik 这正是 SVM 会 好的原因,因为它隐含地使用了与特征数量无关的相似性。这称为
n<p设置。 -
有什么方法可以提高分类算法的准确率(如SVM),运行时间长?内核选项是什么?
标签: machine-learning data-mining