使用分区基准数据集进行机器学习参数调整答案

【问题标题】：Machine learning parameter tuning using partitioned benchmark dataset使用分区基准数据集进行机器学习参数调整
【发布时间】：2019-03-05 03:32:46
【问题描述】：

我知道这将是非常基本的，但是我真的很困惑，我想更好地理解参数调整。

我正在处理一个基准数据集，该数据集已经划分为训练、开发和测试三个部分，我想使用来自sklearn 的GridSearchCV 调整我的分类器参数。

调整参数的正确分区是什么？是发展还是培训？

我在文献中看到研究人员提到他们“在开发拆分中使用 GridSearchCV 调整参数”另一个例子是 here；

他们的意思是他们在训练阶段进行了训练，然后在开发阶段进行了测试？还是 ML 从业者通常意味着他们完全在开发拆分时执行 GridSearchCV？

非常感谢您的澄清。谢谢，

【问题讨论】：

【解决方案1】：

通常在 3 路拆分中，您使用训练集训练模型，然后在开发集（也称为验证集）上对其进行验证以调整超参数，然后在所有调整完成后执行最终在未见的测试集（也称为评估集）上评估模型。

在双向拆分中，您只有一个训练集和一个测试集，因此您在同一个测试集上执行调整/评估。

【讨论】：

如果我有两个拆分（训练和开发），您能解释一下如何使用 sklearn GridSearchCV 吗？谢谢
@user3446905 您可以将它们连接起来并作为一组发送到gridsearchcv.fit() 以允许它为您进行拆分，或者您可以使用此处描述的预定义拆分强制它stackoverflow.com/questions/48390601/…