什么是“遗漏数据”？ `sklearn.model_selection.GridSearchCV` 是如何遗漏数据的？答案

【问题标题】：What is "the left out data"? How the data is being left out by `sklearn.model_selection.GridSearchCV`?什么是“遗漏数据”？ `sklearn.model_selection.GridSearchCV` 是如何遗漏数据的？
【发布时间】：2020-01-02 04:33:25
【问题描述】：

sklearn.model_selection.GridSearchCV 的文档说

搜索选择的估计器，即在遗漏数据上给出最高分数（或最小损失，如果指定）的估计器。如果 refit=False 则不可用。

...

选择的参数是那些最大化遗漏数据得分的参数，除非传递了明确的分数，在这种情况下使用它来代替。

lots SO 的人也use 这个term。

什么是“遗漏数据”？它是交叉验证的遗漏部分，例如数据集的 1/10？

sklearn.model_selection.GridSearchCV 是如何遗漏数据的？

【问题讨论】：

不完全确定如果我是正确的，但如果我没记错的话，遗漏的数据是用于交叉验证的数据，它是从总数据中随机拆分出来的。不过，通常你会使用更多 25% 的数据进行交叉验证。

标签： python machine-learning scikit-learn

【解决方案1】：

从documentation开始，这个网格搜索方法接受一个名为cv的参数：

cv : int，交叉验证生成器或可迭代的，可选的

这决定了 KFold 交叉验证中 K 的值。它还提供了您可以遵循的其他策略。

对于整数/无输入，如果估计器是分类器并且 y 是二元或多类，则使用 StratifiedKFold。在所有其他情况下，使用 KFold。

因此，为了回答您的问题，网格搜索循环遍历参数空间并对每个参数进行例如 3 折交叉验证。正如您可以猜到的，这将涉及在每个步骤中留下一些（在这种情况下为 1/3rs）数据来计算预测精度。这是被遗漏的数据。

【讨论】：