【发布时间】:2017-09-13 02:35:48
【问题描述】:
我有这些来自 Kaggle 实践竞赛的房屋数据,我正在使用 rpart 训练一个简单的第一个模型来预测售价。
模型无法正确识别销售条件异常或预付定金的销售。因此,我想增加这个变量的重要性,这在模型中显然被忽略了。
我假设这是通过使用“权重”参数来完成的,但是这个参数是如何使用的呢?如何确定我希望哪些变量具有更高的权重?
【问题讨论】:
-
rpart中的权重是案例权重。他们对观察结果进行加权,而不是对特征进行加权。 -
那么如何给一个特征增加权重呢?只是复制观察结果?
-
我不知道任何提供加权特征选择的算法。虽然我确信它们存在。我将获取您的完整决策树的输出,并将其用作具有销售条件功能的第二个决策树的输入。这将构建只有两个特征的第二棵树。如果它没有出现,那么它可能在另一个功能中占了。
-
我会尝试使用它,谢谢。