【发布时间】:2015-05-26 22:47:00
【问题描述】:
我正在使用 sklearn 的 DictVectorizer 构建一个大型的稀疏特征矩阵,该矩阵被馈送到 ElasticNet 模型。当预测变量(特征矩阵中的列)居中和缩放时,弹性网络(和类似的线性模型)效果最好。 recommended approach 是构建一个Pipeline,它在回归器之前使用StandardScaler,但是这不适用于稀疏特征,如docs 中所述。
我想在ElasticNet 中使用normalize=True 标志,这似乎支持稀疏数据,但是尚不清楚在预测期间是否也对测试数据应用了标准化。有谁知道normalize=True 是否也适用于预测?如果没有,在处理稀疏特征时,有没有办法在训练集和测试集上使用相同的标准化?
【问题讨论】:
标签: scikit-learn sparse-matrix