与 GridSearchCV 和 RandomSearchCV 一起使用的 RandomForestRegressor 可能在测试集上过拟合答案

【问题标题】：RandomForestRegressor used with GridSearchCV and RandomSearchCV may be overfitting on test set与 GridSearchCV 和 RandomSearchCV 一起使用的 RandomForestRegressor 可能在测试集上过拟合
【发布时间】：2021-03-23 02:03:50
【问题描述】：

我正在关注 Aurelien Geron (link) 所著的《使用 SciKit-Learn、Keras 和 TensorFlow 进行机器学习实践》一书。在第 2 章中，您将使用来自 StatLib 的加州房价 (link) 的数据集实际构建 ML 系统。

我一直在使用 GridSearchCV 和 RandomSearchCV 运行交叉验证测试，以测试哪个性能更好（它们的性能大致相同，具体取决于运行 GridSearch 将比 RandomSearch 性能更好，反之亦然）。在我对训练集的交叉验证期间，我所有的 RMSE 都回来了（大约 10 倍之后），看起来像这样：

49871.10156541779 {'max_features': 6, 'n_estimators': 100} GRID SEARCH CV
49573.67188289324 {'max_features': 6, 'n_estimators': 300} GRID SEARCH CV
49759.116323927 {'max_features': 8, 'n_estimators': 100} GRID SEARCH CV
49388.93702859155 {'max_features': 8, 'n_estimators': 300} GRID SEARCH CV
49759.445071611895 {'max_features': 10, 'n_estimators': 100} GRID SEARCH CV
49517.74394767381 {'max_features': 10, 'n_estimators': 300} GRID SEARCH CV
49796.22587441326 {'max_features': 12, 'n_estimators': 100} GRID SEARCH CV
49616.61833604992 {'max_features': 12, 'n_estimators': 300} GRID SEARCH CV
49795.571075148444 {'max_features': 14, 'n_estimators': 300} GRID SEARCH CV
49790.38581725693 {'n_estimators': 100, 'max_features': 12} RANDOM SEARCH CV
49462.758078362356 {'n_estimators': 300, 'max_features': 8} RANDOM SEARCH CV

请注意，我会从大约 50 个左右的结果中选择最好的结果来展示。我正在使用以下代码来生成它：

param_grid = [{'n_estimators' : [3, 10, 30, 100, 300],
               'max_features' : [2, 4, 6, 8, 10, 12, 14]},
              {'bootstrap' : [False], 'n_estimators' : [3, 10, 12],
               'max_features' : [2, 3, 4]}]

forest_regressor = RandomForestRegressor({'bootstrap': True, 'ccp_alpha': 0.0, 'criterion': 'mse',
                                          'max_depth': None, 'max_features': 8, 'max_leaf_nodes': None,
                                          'max_samples': None, 'min_impurity_decrease': 0.0,
                                          'min_impurity_split': None, 'min_samples_leaf': 1,
                                          'min_samples_split': 2, 'min_weight_fraction_leaf': 0.0,
                                          'n_estimators': 300, 'n_jobs': None, 'oob_score': False,
                                          'random_state': None, 'verbose': 0, 'warm_start': False})

grid_search = GridSearchCV(forest_regressor, param_grid, cv=10, scoring="neg_mean_squared_error",
                           return_train_score=True, refit=True)

grid_search.fit(Dataframe, TrainingLabels)
prediction = grid_search.predict(Dataframe)
cvres = grid_search.cv_results_
for mean_score, params in zip(cvres["mean_test_score"], cvres["params"]):
    print(np.sqrt(-mean_score), params, "GRID SEARCH CV")
##################################################################################
#Randomized Search Cross Validation

param_grid = [{'n_estimators' : [3, 10, 30, 100, 300],
               'max_features' : [2, 4, 6, 8, 10, 12, 14]},
              {'bootstrap' : [False], 'n_estimators' : [3, 10, 12],
               'max_features' : [2, 3, 4]}]

forest_regressor = RandomForestRegressor({'bootstrap': True, 'ccp_alpha': 0.0, 'criterion': 'mse',
                                          'max_depth': None, 'max_features': 8, 'max_leaf_nodes': None,
                                          'max_samples': None, 'min_impurity_decrease': 0.0,
                                          'min_impurity_split': None, 'min_samples_leaf': 1,
                                          'min_samples_split': 2, 'min_weight_fraction_leaf': 0.0,
                                          'n_estimators': 300, 'n_jobs': None, 'oob_score': False,
                                          'random_state': None, 'verbose': 0, 'warm_start': False})

rand_search = RandomizedSearchCV(forest_regressor, param_grid, cv=10, refit=True,
                            scoring='neg_mean_squared_error', return_train_score=True)
rand_search.fit(Dataframe, TrainingLabels)
prediction = rand_search.predict(Dataframe)
cvres = rand_search.cv_results_
for mean_score, params in zip(cvres["mean_test_score"], cvres["params"]):
    print(np.sqrt(-mean_score), params, "RANDOM SEARCH CV")

现在，我做的事情与书中所说的有所不同；我的管道如下所示：

import pandas as pd
import numpy as np
from sklearn.impute import KNNImputer
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.model_selection import StratifiedShuffleSplit
from sklearn.compose import make_column_transformer
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestRegressor
from sklearn import svm, datasets
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import RandomizedSearchCV
from scipy import stats

class Dataframe_Manipulation:
    def __init__(self):
        self.dataframe = pd.read_csv(r'C:\Users\bohayes\AppData\Local\Programs\Python\Python38\Excel and Text\housing.csv')
    def Cat_Creation(self):
        # Creation of an Income Category to organize the median incomes into strata (bins) to sample from
        self.income_cat = self.dataframe['income_category'] = pd.cut(self.dataframe['median_income'],
                                      bins=[0., 1.5, 3.0, 4.5, 6., np.inf],
                                      labels=[1, 2, 3, 4, 5])
        self.rooms_per_house_cat = self.dataframe['rooms_per_house'] = self.dataframe['total_rooms']/self.dataframe['households']
        self.bedrooms_per_room_cat = self.dataframe['bedrooms_per_room'] = self.dataframe['total_bedrooms']/self.dataframe['total_rooms']
        self.pop_per_house = self.dataframe['pop_per_house'] = self.dataframe['population'] / self.dataframe['households']
        return self.dataframe
    def Fill_NA(self):
        self.imputer = KNNImputer(n_neighbors=5, weights='uniform')
        self.dataframe['total_bedrooms'] = self.imputer.fit_transform(self.dataframe[['total_bedrooms']])
        self.dataframe['bedrooms_per_room'] = self.imputer.fit_transform(self.dataframe[['bedrooms_per_room']])
        return self.dataframe
    def Income_Cat_Split(self):
        self.inc_cat_split = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=42)
        for self.train_index, self.test_index in self.inc_cat_split.split(self.dataframe, self.dataframe['income_category']):
            self.strat_train_set = self.dataframe.loc[self.train_index].reset_index(drop=True)
            self.strat_test_set = self.dataframe.loc[self.test_index].reset_index(drop=True)
            # the proportion is the % of total instances and which strata they are assigned to
            self.proportions = self.strat_test_set['income_category'].value_counts() / len(self.strat_test_set)
            # Only pulling out training set!!!!!!!!!!!!!!!
            return self.strat_train_set, self.strat_test_set
    def Remove_Cats_Test(self):
        self.test_labels = self.strat_test_set['median_house_value'].copy()
        self.strat_test_set = self.strat_test_set.drop(['median_house_value'], axis=1)
        return self.test_labels
    def Remove_Cats_Training(self):
        self.training_labels = self.strat_train_set['median_house_value'].copy()
        self.strat_train_set = self.strat_train_set.drop(['median_house_value'], axis=1)
        return self.training_labels
    def Encode_Transform(self):
        self.column_trans = make_column_transformer((OneHotEncoder(), ['ocean_proximity']), remainder='passthrough')
        self.training_set_encoded = self.column_trans.fit_transform(self.strat_train_set)
        self.test_set_encoded = self.column_trans.fit_transform(self.strat_test_set)
        return self.training_set_encoded, self.test_set_encoded
    def Standard_Scaler(self):
        self.scaler = StandardScaler()
        self.scale_training_set = self.scaler.fit(self.training_set_encoded)
        self.scale_test_set = self.scaler.fit(self.test_set_encoded)
        self.scaled_training_set = self.scaler.transform(self.training_set_encoded)
        self.scaled_test_set = self.scaler.transform(self.test_set_encoded)
        return self.scaled_training_set
    def Test_Set(self):
        return self.scaled_test_set
    
A = Dataframe_Manipulation()
B = A.Cat_Creation()
C = A.Fill_NA()
D = A.Income_Cat_Split()
TestLabels = A.Remove_Cats_Test()
TrainingLabels = A.Remove_Cats_Training()
G = A.Encode_Transform()
TrainingSet = A.Standard_Scaler()
TestSet = A.Test_Set()

网格和随机搜索在这之后出现，但是当我在 TestSet 上测试它们时，我的 RMSE 分数回来了很大不同，这让我相信我过拟合了，但也许 RSME 看起来不同，因为我使用的是更小的测试集？给你：

19366.910530221918
19969.043158986697

现在是生成该代码的代码：它是在我运行网格和随机搜索并将测试标签和测试集拟合到模型之后出现的：

#Final Grid Model
final_grid_model = grid_search.best_estimator_

final_grid_prediction = final_grid_model.predict(TestSet)
final_grid_mse = mean_squared_error(TestLabels, final_grid_prediction)
final_grid_rmse = np.sqrt(final_grid_mse)
print(final_grid_rmse)
###################################################################################
#Final Random Model
final_rand_model = rand_search.best_estimator_

final_rand_prediction = final_rand_model.predict(TestSet)
final_rand_mse = mean_squared_error(TestLabels, final_rand_prediction)
final_rand_rmse = np.sqrt(final_rand_mse)
print(final_rand_rmse)

只是为了确保我也对模型进行了置信度评分，这些是代码和结果：

#Confidence Grid Search 
confidence = 0.95
squared_errors = (final_grid_prediction - TestLabels) ** 2
print(np.sqrt(stats.t.interval(confidence, len(squared_errors) - 1,
                         loc=squared_errors.mean(),
                         scale=stats.sem(squared_errors))))
###################################################################################
#Confidence Random Search 
confidence1 = 0.95
squared_errors1 = (final_rand_prediction - TestLabels) ** 2
print(np.sqrt(stats.t.interval(confidence1, len(squared_errors1) - 1,
                         loc=squared_errors1.mean(),
                         scale=stats.sem(squared_errors1))))
                         

>>>[18643.4914044  20064.26363526]
[19222.30464011 20688.84660134]

为什么我在 TrainingSet 上的平均 RMSE 分数约为 49,000，而在测试集上的相同分数平均约为 19,000？我一定是过拟合了，但我不确定我哪里出错了。

【问题讨论】：

请不要将您的 Python 代码格式化为 Javascript sn-ps（已编辑）。
您的测试 RMSE 低于比您的训练数据，即您的模型实际上在测试集上比在训练数据上表现更好；根据定义，这不能过度拟合。
嘿 - 感谢您回复我，我是 Stack Overflow 的新手，我无法真正弄清楚如何格式化我的代码，对此感到抱歉。此外，我只是担心，因为我的 RMSE 在我的测试中比在我的训练中少了大约 30,000。相反，当我读这本书时，他们的测试集分数几乎相同。如果您有时间，您能否简要解释一下为什么它会如此大幅度地改进？会不会是欠拟合？
Underftting 在这里没有任何解释；我的 2 美分：而不是这种“异国情调”的解释（过度拟合/欠拟合），很可能你的（不必要的复杂的）代码没有做它应该做的事情（即你有编码问题）。

标签： python machine-learning scikit-learn random-forest

【解决方案1】：

tl;dr：您的代码对于这样的（标准）工作来说是不必要的复杂；不要重新发明轮子，改用pipeline。

您如何扩展数据存在错误，这很可能是此处观察到的行为的根本原因；在第二行：

    self.scale_training_set = self.scaler.fit(self.training_set_encoded)
    self.scale_test_set = self.scaler.fit(self.test_set_encoded)

您基本上用测试集拟合的结果覆盖您的缩放器，然后您实际上使用这个适合测试的缩放器来缩放您的训练数据：

    self.scaled_training_set = self.scaler.transform(self.training_set_encoded)

由于您的测试集仅占数据集的 20%，因此发生的情况是它没有包含足够的值来充分覆盖（更大）训练集的整个范围（最小值-最大值）；结果，训练集被错误缩放（实际上包含远高于测试集最大值的值），这可能导致更高的 RMSE（这是不是缩放不变的，并且根据定义取决于预测的规模）。

你可能认为在上游使用StratifiedShuffleSplit 应该可以保护你免受这种情况的影响，但事实是StratifiedShuffleSplit 仅适用于分类数据集，而在回归数据集中实际上没有意义（我真的很惊讶它没有在这里抛出错误）。

要解决此问题，您只需删除该行

    self.scale_test_set = self.scaler.fit(self.test_set_encoded)

来自您的 Standard_Scaler() 函数。

请记住，一般情况下，我们从不 fit 在测试集上 - 我们只有 transform； scikit-learn 管道，除了让您不必编写所有这些样板代码（从而增加编码错误的可能性）之外，还将保护您免受此类错误的影响...

【讨论】：

非常感谢您的详细回复！我听从了你的建议，我删除了有问题的行。然而，这实际上导致我的 RMSE 分数平均比以前更好。那时我希望我的 RMSE 下降到 40,000。你能解释一下为什么我不想“适应”测试集吗？只要你有时间。另外，在 StandardScaler 上进行拟合时，拟合和变换有什么区别？
归根结底，我对 ML 还是很陌生，我并不想重新发明任何东西，但我正在测试自己独立编写无需复制即可执行相同操作的代码的能力。我将检查管道链接。非常感谢您的帮助。
简而言之，请参见 What's the difference between fit and fit_transform in scikit-learn models? 和 what is the difference between 'transform' and 'fit_transform' in sklearn （保留所有配备 fit 和 transform 方法的东西）。正如已经建议的那样，使用管道。
嘿，我有一个有趣的更新，我将 'self.scaled_training_set = self.scaler.fit(self.training_set_encoded)' 更改为 'self.scaled_training_set = self.scaler.fit_transform(self. training_set_encoded)'，现在我在网格和随机搜索 CV 上的 RMSE 分别与训练集为 18253.66378264979 18556.824376774486。你认为这会影响它吗？我不再适合然后转型。让我知道你的想法。