【发布时间】:2015-11-25 23:52:26
【问题描述】:
我有一个具有不同移动设备功能的数据文件。具有分类数据类型的一列具有 1421 种不同类型的值。我正在尝试与我拥有的其他数据一起训练逻辑回归模型。 我的问题是:上面描述的高基数列会影响我正在训练的模型吗?如果是,我该如何预处理此列以减少不同值的数量?
【问题讨论】:
-
你有多少数据点?过拟合的风险很高。除非每个不同类型有 许多 个值,否则您可能希望完全忽略该属性。 (避免基于单一观察的预测 - 该值可能完全关闭)
-
我在训练数据集中有 380083 条记录。每个不同类型的最小值为 26,最大值为 8000。这些数字在不同值上均匀地从 26 增加到 8000。
-
您可能想尝试预处理您的数据,将分类数据映射为数字数据。 Here is a technique 将这些转换为目标的后验概率(分类场景)或目标的期望值(预测场景)。
标签: machine-learning data-mining logistic-regression