【发布时间】:2019-01-17 23:38:05
【问题描述】:
假设我有以下数据集。 (数据完全随机)
Colour Size Shape Pre booking number Price
White 24 Square 600 1400
Blue 35 Circle 435 1854
Black 16 Square 873 1272
White 43 Triangle 221 1777
White 20 Oval 532 1434
Black 35 Triangle 221 ????
我必须预测[颜色、尺寸、形状、预定编号]的某个组合的价格
考虑以下特征工程方法 我选择颜色与价格。我对颜色进行分组以找出每个组(颜色)的平均价格,并简单地将颜色变量替换为各自的平均值。我对每个分类变量都这样做。对于非分类变量,我保持原样。
Colour Size Shape Pre booking number Price
1536 1400 1336 600 1400
1854 1854 1854 435 1854
1272 1272 1336 873 1272
1536 1777 1777 221 1777
1536 1434 1434 532 1434
1272 1854 1777. 221 ????
现在我将这些数据提供给任何 ML 回归模型。
我的问题是:
这种方法的优劣如何?内部发生了什么?
一般来说,使所有变量与目标变量具有强相关性(可能在同一尺度上)的效果如何?
最重要的是,如果我仅通过相加/相乘来合并两个或多个分类列以减少维度,它将如何影响预测?
谢谢。
【问题讨论】:
-
您为什么不按原样使用这些功能(至少在第一步中)?您似乎不清楚您试图通过您的方法实现什么。
-
他正在尝试降低数据的维度。
-
@MarijnvanVliet 在特征工程之后,他的示例中的维数仍然相同。再说一遍:如果他只有 4 个特征和因变量,为什么还要这样做?
-
@petezurich:为了便于理解和讨论,这是一个包含 4 个特征的示例案例。我要处理的特征是分类的,因此对它们进行编码是一种方式,但它会创建(总类别 - 1)特征来代替那个特征。所以我只是在寻找另一种方法。
-
@petezurich :此外,如果能够以可理解的数字尺度有效地转换分类特征,我也许可以组合这些特征,如果我说要处理 80-90 个分类变量,这将很有帮助.
标签: machine-learning regression categorical-data dimensionality-reduction feature-engineering