【发布时间】:2019-09-19 17:47:57
【问题描述】:
我有一个由人口普查数据(年龄、性别、就业类型、种族、教育水平等)组成的数据集。我的任务是编写一个算法来预测一个数据点(30 岁、男性、白人等)的年总收入是否超过 5 万美元。
到目前为止,我实现了一个运行 30 小时的 KNN 算法,但在测试数据上达到了 ~90% 的准确度。我希望使用 SVM 算法、朴素贝叶斯或其他任何可能在这里工作的方法来实现更高的准确度。
我正在寻找一种在 python 中实现起来相对简单(与 KNN 一样难)的算法,并且可能会达到良好的准确性。在这种情况下,最好的选择是什么?如果 KNN 是最佳选择,哪种算法最容易实现比较?
【问题讨论】:
-
如果预测是连续的,为什么不尝试回归?
-
我只需要预测它是否高于或低于50k,而不是给出估计,因此可以将其视为分类问题。另外,我的测试数据收入为“50k”
-
你总是可以尝试简单的 NN 和 Keras。这是一个快速入门帖子here
-
试试
Random Forrest和Ensemble methods
标签: python machine-learning svm knn