【发布时间】:2011-02-05 09:56:45
【问题描述】:
假设我正在处理一些分类问题。 (欺诈检测和垃圾评论是我目前正在研究的两个问题,但我对任何分类任务都很好奇。)
我怎么知道我应该使用哪个分类器?
- 决策树
- 支持向量机
- 贝叶斯
- 神经网络
- K-最近邻
- Q 学习
- 遗传算法
- 马尔可夫决策过程
- 卷积神经网络
- 线性回归或逻辑回归
- 提升、装袋、集成
- 随机爬山或模拟退火
- ...
在哪些情况下,其中一种是“自然”的首选,选择该选择的原则是什么?
我正在寻找的答案类型示例(来自 Manning 等人的 Introduction to Information Retrieval 书籍):
一个。 如果你的数据被标记,但你只有有限的数量,你应该使用具有高偏差的分类器(例如,朴素贝叶斯)。
我猜这是因为较高偏差的分类器的方差较低,这很好,因为数据量很小。
b. 如果你有大量数据,那么分类器就没有那么重要了,所以你应该选择一个具有良好可扩展性的分类器。
还有哪些其他指南?甚至像“如果你必须向一些高层管理人员解释你的模型,那么也许你应该使用决策树,因为决策规则是相当透明的”这样的答案也很好。不过,我不太关心实现/库问题。
-
另外,对于一个有点不同的问题,除了标准的贝叶斯分类器之外,是否有“标准的最先进”方法来检测垃圾评论(相对于垃圾邮件)?
李>
【问题讨论】:
-
回复你的“问这个问题的最佳地点”,你可能还想试试stats.stackexchange.com
标签: machine-learning