【问题标题】:Deciding on the best algorithm for a classification problem确定分类问题的最佳算法
【发布时间】:2019-09-19 17:47:57
【问题描述】:

我有一个由人口普查数据(年龄、性别、就业类型、种族、教育水平等)组成的数据集。我的任务是编写一个算法来预测一个数据点(30 岁、男性、白人等)的年总收入是否超过 5 万美元。

到目前为止,我实现了一个运行 30 小时的 KNN 算法,但在测试数据上达到了 ~90% 的准确度。我希望使用 SVM 算法、朴素贝叶斯或其他任何可能在这里工作的方法来实现更高的准确度。

我正在寻找一种在 python 中实现起来相对简单(与 KNN 一样难)的算法,并且可能会达到良好的准确性。在这种情况下,最好的选择是什么?如果 KNN 是最佳选择,哪种算法最容易实现比较?

【问题讨论】:

  • 如果预测是连续的,为什么不尝试回归?
  • 我只需要预测它是否高于或低于50k,而不是给出估计,因此可以将其视为分类问题。另外,我的测试数据收入为“50k”
  • 你总是可以尝试简单的 NN 和 Keras。这是一个快速入门帖子here
  • 试试Random ForrestEnsemble methods

标签: python machine-learning svm knn


【解决方案1】:

很难先验判断哪种算法的性能更好。通常,对于您的传统分类任务,随机森林、梯度增强机器和 SVM 通常会给出最好的结果。

我不知道您所说的寻找“实现起来相对简单”的算法是什么意思,但是如果您使用scikit-learn,很多算法已经实现并且适合一两行代码,所以都可以试试!

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-01-14
    • 2021-02-19
    • 1970-01-01
    • 2013-02-28
    相关资源
    最近更新 更多