【发布时间】:2023-03-22 03:26:01
【问题描述】:
我使用 GroupKFold 调整了 RandomForest(以防止数据泄漏,因为某些行来自同一组)。
我得到了一个最佳拟合模型,但是当我对测试数据进行预测时,它说它需要组特征。
这有意义吗?奇怪的是,群组功能也成为最重要的功能之一。
我只是想知道我是否做错了什么。
谢谢
【问题讨论】:
-
您能否提供一个最小的、可重现的代码示例? (stackoverflow.com/help/minimal-reproducible-example)
-
我认为没有必要。这是一个关于理论的问题@KimTang
-
好的,对我来说,您当前的问题太模糊,无法理解问题。您使用 GroupKFold 创建的折叠之一训练了一个 RandomForestClassifier,然后当您进行预测时,您得到一个错误,要求提供“组特征”?这个“群功能”是什么?我在 RandomForestClassifier 和 GroupKFold 的文档中找不到任何关于它的信息。
-
我同意@KimTang,我们缺乏关于你真正在做什么的细节,一个代码示例可以作为一个很好的讨论基础(没有措辞问题),并且可以消除对简单编码错误的任何疑问!
标签: scikit-learn grouping random-forest cross-validation k-fold