【问题标题】:Machine learning parameter tuning using partitioned benchmark dataset使用分区基准数据集进行机器学习参数调整
【发布时间】:2019-03-05 03:32:46
【问题描述】:

我知道这将是非常基本的,但是我真的很困惑,我想更好地理解参数调整。

我正在处理一个基准数据集,该数据集已经划分为训练、开发和测试三个部分,我想使用来自sklearnGridSearchCV 调整我的分类器参数。

调整参数的正确分区是什么?是发展还是培训?

我在文献中看到研究人员提到他们“在开发拆分中使用 GridSearchCV 调整参数”另一个例子是 here

他们的意思是他们在训练阶段进行了训练,然后在开发阶段进行了测试?还是 ML 从业者通常意味着他们完全在开发拆分时执行 GridSearchCV?

非常感谢您的澄清。谢谢,

【问题讨论】:

    标签: python machine-learning parameters scikit-learn svm


    【解决方案1】:

    通常在 3 路拆分中,您使用训练集训练模型,然后在开发集(也称为验证集)上对其进行验证以调整超参数,然后在所有调整完成后执行最终在未见的测试集(也称为评估集)上评估模型。

    在双向拆分中,您只有一个训练集和一个测试集,因此您在同一个测试集上执行调整/评估。

    【讨论】:

    • 如果我有两个拆分(训练和开发),您能解释一下如何使用 sklearn GridSearchCV 吗?谢谢
    • @user3446905 您可以将它们连接起来并作为一组发送到gridsearchcv.fit() 以允许它为您进行拆分,或者您可以使用此处描述的预定义拆分强制它stackoverflow.com/questions/48390601/…
    猜你喜欢
    • 2014-08-27
    • 1970-01-01
    • 2013-06-07
    • 2016-01-17
    • 2018-10-31
    • 1970-01-01
    • 2017-05-16
    • 2019-11-14
    • 2019-11-08
    相关资源
    最近更新 更多