与因变量相关的特征不会提高随机森林回归模型的准确性答案

【问题标题】：Correlated features to the dependent variable don't improve the accuracy of a Random Forest regression model与因变量相关的特征不会提高随机森林回归模型的准确性
【发布时间】：2020-08-02 12:15:25
【问题描述】：

我的模型旨在以小时为单位预测电台收听情况（在给定日期的给定时间，针对 1 个特定广播电台。我的训练集的每一行代表一年中每一天的 1 小时块，并且有不到 30,000 条记录追溯到 3.5 年。我的功能包括参数信息，例如日期、车站、星期几、开始时间以及天气信息。

最近我添加了 2 个二进制特征，我认为这将有助于模型的准确性，但事实并非如此。它们是电台是否在给定时间举办比赛（比赛有助于吸引更多观众）以及电台是否正在播放圣诞音乐（圣诞节音乐往往也会吸引观众）。当我对我的所有特征与我的因变量（收听时间）进行 Pearson 相关性分析时，这两个特征在最相关的特征中排名前 4 位（X-Mas 音乐为 0.16，比赛为 0.20），其中最高相关特征位于 0.31。当有比赛时，收听时间往往会增加一倍，而当播放 X_mas 音乐时，时间往往会增加约 50%。有趣的是，当这 2 个特征为真 (1) 时，我的预测也成比例地更高。

我知道这些特征没有增加预测价值的方式是，当我从数据集中删除它们以训练模型并进行预测时，模型的准确性并没有提高。我正在测量平均绝对误差、MSE 和 R2 来评估模型性能。

关于为什么因变量的重要特征（与其他特征不相关）无助于减少错误的任何想法？

我正在运行一个包含 100 棵树的 RF。如果我也只运行一棵树，问题就会出现。

【问题讨论】：

标签： python-3.x random-forest feature-selection

【解决方案1】：

您用作输入的其他特征可能已经足以提供准确的预测。因此，包括两个二元特征不会提高模型的准确性。 Id 估计变量重要性，以了解这两个二元特征与整体预测的相关程度。

【讨论】：

谢谢。我运行了特征重要性，这两个变量的重要性非常低（