【问题标题】:What is "the left out data"? How the data is being left out by `sklearn.model_selection.GridSearchCV`?什么是“遗漏数据”? `sklearn.model_selection.GridSearchCV` 是如何遗漏数据的?
【发布时间】:2020-01-02 04:33:25
【问题描述】:

sklearn.model_selection.GridSearchCV 的文档说

搜索选择的估计器,即在遗漏数据上给出最高分数(或最小损失,如果指定)的估计器。如果 refit=False 则不可用。

...

选择的参数是那些最大化遗漏数据得分的参数,除非传递了明确的分数,在这种情况下使用它来代替。

lots SO 的人也use 这个term

什么是“遗漏数据”?它是交叉验证的遗漏部分,例如数据集的 1/10?

sklearn.model_selection.GridSearchCV 是如何遗漏数据的?

【问题讨论】:

  • 不完全确定如果我是正确的,但如果我没记错的话,遗漏的数据是用于交叉验证的数据,它是从总数据中随机拆分出来的。不过,通常你会使用更多 25% 的数据进行交叉验证。

标签: python machine-learning scikit-learn


【解决方案1】:

documentation开始,这个网格搜索方法接受一个名为cv的参数:

cv : int,交叉验证生成器或可迭代的,可选的

这决定了 KFold 交叉验证中 K 的值。它还提供了您可以遵循的其他策略。

对于整数/无输入,如果估计器是分类器并且 y 是二元或多类,则使用 StratifiedKFold。在所有其他情况下,使用 KFold。

因此,为了回答您的问题,网格搜索循环遍历参数空间并对每个参数进行例如 3 折交叉验证。正如您可以猜到的,这将涉及在每个步骤中留下一些(在这种情况下为 1/3rs)数据来计算预测精度。这是被遗漏的数据。

【讨论】:

    猜你喜欢
    • 2023-02-03
    • 1970-01-01
    • 2022-01-22
    • 1970-01-01
    • 2013-09-14
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-08-22
    相关资源
    最近更新 更多