【问题标题】:poor accuracy score on classfication problem [closed]分类问题中的准确度得分低[关闭]
【发布时间】:2020-08-02 14:09:04
【问题描述】:

我正在尝试构建一个分类模型,而我的目标不是二元的我的特征与我的目标的相关性都很弱(大部分为 0.1)。我已经预处理了我的数据并应用了我使用的所有算法(我使用的算法是svm, knn, naivebayes,logistic regression, decision tree,gradient boosting, random forest)。我用sklearn metrics.accuracy_score 评估了所有模型,只是想知道它们在我的数据上的表现有多好,但它们都得分为 0.1~0.2 。目标是productline 列。

我的问题

  1. 怎么会这样?
  2. 如何解决这个问题?
  3. 还有其他算法可以取得更好的分数吗?

【问题讨论】:

  • 准确度用于分类,但您似乎在进行回归,因此您必须使用不同的指标。常见的选择有均方误差、Pearson 相关、R 平方、Matthews 相关系数等。
  • 但我要分类的是预测的产品类型(如家居、食品、运动、健康、电子产品等)是不是分类?
  • 对不起,完全误解了你的问题!比较训练集和测试集的损失,如果它们非常不同,那么你就过拟合了,必须进行更多的正则化
  • @BlackBear 存在过度拟合,我还没有对其进行正则化.. 恐怕即使在正则化之后,模型准确率也只有大约 60%.. 我仍然对需要多少分数感到困惑说这个模型足够“好”。但性能不佳是不是相关数据非常不相关造成的?
  • @potatostudent:如果你确定你过拟合并且引用了你的测试准确度(而不是训练准确度),那么添加正则化就可以了。如果使用得当,它会降低训练准确率,但会提高测试准确率。要查看它是否是“好”分数,您需要将您的结果与其他一些默认模型进行比较。您说您使用的任何 ML 模型都不适合您,因此请选择一个简单的模型,例如 (a) 随机选择,(b) 选择最频繁的标签,或 (c) 选择与其频率成比例的随机标签。跨度>

标签: python machine-learning classification data-science


【解决方案1】:

如果您使用dummy classifier,准确度是多少?您尝试过的模型的准确率至少应该与虚拟分类器的准确率相当。

“怎么会这样?”如果特征和目标变量之间没有关系,模型就不会返回好的结果。

我不确定您的数据集的详细信息,但您可以尝试 1) 获取更多数据 2) 获取更多特征 3) 进行一些特征工程 4) 如果没有清理数据集,可能会有影响结果的异常值或错误输入

【讨论】:

    猜你喜欢
    • 2021-08-18
    • 2018-04-16
    • 2018-08-18
    • 2018-03-03
    • 2018-08-16
    • 2017-10-13
    • 2018-10-01
    • 2020-06-29
    • 2016-08-19
    相关资源
    最近更新 更多