【发布时间】:2015-03-22 18:37:45
【问题描述】:
我的数据集变得太大,我正在 sklearn 中寻找在线学习解决方案,他们将其称为核心外学习。
他们提供了一些使用部分拟合 API 的类,基本上可以让您将数据的子集保存在内存中并对其进行操作。但是,许多预处理阶段(例如数据缩放)在训练数据的拟合阶段保留参数,然后将其用于转换。
例如,如果您使用 min-max 缩放器将特征绑定到 [-1, 1] 或标准化您的数据,则它们学习并最终用于转换数据的参数是从子集 他们碰巧在给定迭代中操作的训练数据。
这意味着,在拟合阶段对一个训练数据子集学习的参数可能与另一训练数据子集不同,因为它们是特定于训练集的。这就是我的问题的核心:
当学习的参数是训练数据的函数时,如何结合在预处理步骤的拟合阶段学习的参数?
【问题讨论】:
标签: python machine-learning scikit-learn data-mining data-analysis