【问题标题】:Correlated features to the dependent variable don't improve the accuracy of a Random Forest regression model与因变量相关的特征不会提高随机森林回归模型的准确性
【发布时间】:2020-08-02 12:15:25
【问题描述】:

我的模型旨在以小时为单位预测电台收听情况(在给定日期的给定时间,针对 1 个特定广播电台。我的训练集的每一行代表一年中每一天的 1 小时块,并且有不到 30,000 条记录追溯到 3.5 年。我的功能包括参数信息,例如日期、车站、星期几、开始时间以及天气信息。

最近我添加了 2 个二进制特征,我认为这将有助于模型的准确性,但事实并非如此。它们是电台是否在给定时间举办比赛(比赛有助于吸引更多观众)以及电台是否正在播放圣诞音乐(圣诞节音乐往往也会吸引观众)。当我对我的所有特征与我的因变量(收听时间)进行 Pearson 相关性分析时,这两个特征在最相关的特征中排名前 4 位(X-Mas 音乐为 0.16,比赛为 0.20),其中最高相关特征位于 0.31。当有比赛时,收听时间往往会增加一倍,而当播放 X_mas 音乐时,时间往往会增加约 50%。有趣的是,当这 2 个特征为真 (1) 时,我的预测也成比例地更高。

我知道这些特征没有增加预测价值的方式是,当我从数据集中删除它们以训练模型并进行预测时,模型的准确性并没有提高。我正在测量平均绝对误差、MSE 和 R2 来评估模型性能。

关于为什么因变量的重要特征(与其他特征不相关)无助于减少错误的任何想法?

我正在运行一个包含 100 棵树的 RF。如果我也只运行一棵树,问题就会出现。

【问题讨论】:

    标签: python-3.x random-forest feature-selection


    【解决方案1】:

    您用作输入的其他特征可能已经足以提供准确的预测。因此,包括两个二元特征不会提高模型的准确性。 Id 估计变量重要性,以了解这两个二元特征与整体预测的相关程度。

    【讨论】:

    • 谢谢。我运行了特征重要性,这两个变量的重要性非常低(
    猜你喜欢
    • 2018-12-04
    • 1970-01-01
    • 2018-06-17
    • 2018-12-01
    • 2017-07-19
    • 2015-03-07
    • 2017-01-06
    • 2020-03-12
    • 2022-11-11
    相关资源
    最近更新 更多