【发布时间】:2018-03-10 16:45:16
【问题描述】:
您好,我正在使用随机森林分类器来生成 logerror。日志错误同时包含 =ve 和 -ve 值。使用不同设置运行分类器后。我能够获得大约 0.8 的训练测试分数,但测试分数始终为负数。为什么呢? 我应该使用 abs(log error) 进行预测还是我对随机森林的选择是错误的?
【问题讨论】:
标签: python-2.7 machine-learning random-forest
您好,我正在使用随机森林分类器来生成 logerror。日志错误同时包含 =ve 和 -ve 值。使用不同设置运行分类器后。我能够获得大约 0.8 的训练测试分数,但测试分数始终为负数。为什么呢? 我应该使用 abs(log error) 进行预测还是我对随机森林的选择是错误的?
【问题讨论】:
标签: python-2.7 machine-learning random-forest
随机森林的选择可能是错误的,但您最好在数据上下文中检查它,就好像您在此处共享数据一样,这很容易在准确的点上为您提供帮助。但是,如果您的总观察值在 1000-2000 左右,我建议您尝试使用 Knn。
此外,如果您使用任何类型的编码将分类数据转换为标称数据,请仅使用一种热编码作为我将值添加到属性的其他编码。
您应该检查属性与目标变量的相关性,因为测试数据中目标变量的低相关性可能会导致负分。
除此之外,数据分布在随机森林回归中起着至关重要的作用。因此,尝试检查分布,并应用 box-cox 等方法将数据转换为正态分布。
【讨论】: