【发布时间】:2020-08-02 12:15:25
【问题描述】:
我的模型旨在以小时为单位预测电台收听情况(在给定日期的给定时间,针对 1 个特定广播电台。我的训练集的每一行代表一年中每一天的 1 小时块,并且有不到 30,000 条记录追溯到 3.5 年。我的功能包括参数信息,例如日期、车站、星期几、开始时间以及天气信息。
最近我添加了 2 个二进制特征,我认为这将有助于模型的准确性,但事实并非如此。它们是电台是否在给定时间举办比赛(比赛有助于吸引更多观众)以及电台是否正在播放圣诞音乐(圣诞节音乐往往也会吸引观众)。当我对我的所有特征与我的因变量(收听时间)进行 Pearson 相关性分析时,这两个特征在最相关的特征中排名前 4 位(X-Mas 音乐为 0.16,比赛为 0.20),其中最高相关特征位于 0.31。当有比赛时,收听时间往往会增加一倍,而当播放 X_mas 音乐时,时间往往会增加约 50%。有趣的是,当这 2 个特征为真 (1) 时,我的预测也成比例地更高。
我知道这些特征没有增加预测价值的方式是,当我从数据集中删除它们以训练模型并进行预测时,模型的准确性并没有提高。我正在测量平均绝对误差、MSE 和 R2 来评估模型性能。
关于为什么因变量的重要特征(与其他特征不相关)无助于减少错误的任何想法?
我正在运行一个包含 100 棵树的 RF。如果我也只运行一棵树,问题就会出现。
【问题讨论】:
标签: python-3.x random-forest feature-selection