使用 GridSearchCV 调整 scikit-learn 的随机森林超参数答案

【问题标题】：Random Forest hyperparameter tuning scikit-learn using GridSearchCV使用 GridSearchCV 调整 scikit-learn 的随机森林超参数
【发布时间】：2016-05-11 21:33:09
【问题描述】：

我正在尝试使用随机森林来解决我的问题（以下是波士顿数据集的示例代码，而不是我的数据）。我打算使用GridSearchCV 进行超参数调整，但不同参数的值范围应该是多少？我怎么知道我选择的范围是正确的？

我在互联网上读到它，有人建议尝试在第二次网格搜索中“放大”最佳值（例如，如果它是 10 则尝试 [5、20、50]）。

这是正确的方法吗？我应该对随机森林所需的所有参数使用这种方法吗？这种方法可能会错过一个“好的”组合，对吧？

import numpy as np
from sklearn.grid_search import GridSearchCV
from sklearn.datasets import load_digits
from sklearn.ensemble import RandomForestRegressor
digits = load_boston()
X, y = dataset.data, dataset.target
model = RandomForestRegressor(random_state=30)
param_grid = { "n_estimators"      : [250, 300],
           "criterion"         : ["gini", "entropy"],
           "max_features"      : [3, 5],
           "max_depth"         : [10, 20],
           "min_samples_split" : [2, 4] ,
           "bootstrap": [True, False]}
grid_search = GridSearchCV(clf, param_grid, n_jobs=-1, cv=2)
grid_search.fit(X, y)
print grid_search.best_params_

【问题讨论】：

标签： python scikit-learn random-forest grid-search

【解决方案1】：

从粗到细实际上通常用于寻找最佳参数。您首先从广泛的参数开始，并在您接近最佳结果时对其进行优化。

我发现了一个很棒的库，它为 scikit-learn 进行超参数优化，hyperopt-sklearn。它可以自动调整您的 RandomForest 或任何其他标准分类器。您甚至可以同时自动调整和基准测试不同的分类器。

我建议你从它开始，因为它实现了不同的方案来获得最佳参数：

随机搜索

Parzen 估计器树 (TPE)

退火

树

高斯过程树

编辑：

在回归的情况下，您仍然需要断言您的预测在测试集上是否良好。

无论如何，从粗到细的方法仍然适用，并且对任何估计器都有效。

【讨论】：

这不支持回归和许多算法，是吗？实际上，我的问题是回归而不是分类。我已经编辑了我的问题。
我已经编辑了我的问题，很抱歉造成混乱。