【发布时间】:2017-09-13 10:49:09
【问题描述】:
我正在使用 sklearn 实现逻辑回归模型,用于 Kaggle 上的文本分类比赛。
当我使用 unigram 时,有 23,617 个特征。最好的
mean_test_score交叉验证搜索(sklearn 的GridSearchCV)给我的分数与我从 Kaggle 得到的分数相似,使用的是最好的模型。如果我使用二元组,则有 1,046,524 个特征。与 unigram 相比,
GridSearchCV给了我更好的mean_test_score,但使用这个新模型,我在 Kaggle 上的得分要低得多。
我猜原因可能是过度拟合,因为我的特征太多了。我曾尝试将GridSearchCV 设置为5 倍,甚至2 倍,但分数仍然不一致。
这是否真的表明我的第二个模型过度拟合,即使在验证阶段也是如此?如果是这样,我如何使用 sklearn 调整我的逻辑模型的正则化项?任何建议表示赞赏!
【问题讨论】:
-
谁反对,请添加您的评论。这样我以后可以提出更好的问题。
标签: python-3.x machine-learning scikit-learn nlp logistic-regression