确定分类问题的最佳算法答案

【问题标题】：Deciding on the best algorithm for a classification problem确定分类问题的最佳算法
【发布时间】：2019-09-19 17:47:57
【问题描述】：

我有一个由人口普查数据（年龄、性别、就业类型、种族、教育水平等）组成的数据集。我的任务是编写一个算法来预测一个数据点（30 岁、男性、白人等）的年总收入是否超过 5 万美元。

到目前为止，我实现了一个运行 30 小时的 KNN 算法，但在测试数据上达到了 ~90% 的准确度。我希望使用 SVM 算法、朴素贝叶斯或其他任何可能在这里工作的方法来实现更高的准确度。

我正在寻找一种在 python 中实现起来相对简单（与 KNN 一样难）的算法，并且可能会达到良好的准确性。在这种情况下，最好的选择是什么？如果 KNN 是最佳选择，哪种算法最容易实现比较？

【问题讨论】：

【解决方案1】：

很难先验判断哪种算法的性能更好。通常，对于您的传统分类任务，随机森林、梯度增强机器和 SVM 通常会给出最好的结果。

我不知道您所说的寻找“实现起来相对简单”的算法是什么意思，但是如果您使用scikit-learn，很多算法已经实现并且适合一两行代码，所以都可以试试！

【讨论】：