【发布时间】:2019-06-09 11:44:04
【问题描述】:
我正在尝试生成一个模型,该模型使用分子的多种物理化学特性(包括原子数、环数、体积等)来预测数值 Y。我想使用 PLS 回归,我知道标准化在这里非常重要。我正在使用 scikit-learn 在 Python 中编程。功能的类型和范围各不相同。有些是 int64,有些是浮点数。一些特征通常具有较小的(正或负)值,而另一些则具有非常大的值。我尝试过使用各种缩放器(例如标准缩放器、标准化、最小最大缩放器等)。然而,R2/Q2 仍然很低。我有几个问题:
- 是否有可能通过缩放,一些非常重要的特征失去了意义,从而对解释响应变量的方差贡献较小?
- 如果是,如果我确定了一些重要特征(通过专业知识),是否可以缩放除这些之外的其他特征?还是仅扩展重要功能?
- 与其他特征(例如 -1 到 10)相比,某些特征虽然并不总是相关,但具有相似范围内的值(例如 100-400)。是否可以仅缩放同一范围内的特定特征组?
【问题讨论】:
标签: scikit-learn regression scaling sklearn-pandas