sklearn Ridge 和 sample_weight 给出内存错误答案

【问题标题】：sklearn Ridge and sample_weight gives Memory Errorsklearn Ridge 和 sample_weight 给出内存错误
【发布时间】：2014-05-11 02:39:56
【问题描述】：

我正在尝试使用一组样本权重来运行简单的 Sklearn Ridge 回归。 X_train 是一个 ~200k x 100 2D Numpy 数组。尝试使用 sample_weight 选项时出现内存错误。如果没有该选项，它就可以正常工作。为简单起见，我将功能减少到 2，但 sklearn 仍然给我一个内存错误。有什么想法吗？

model=linear_model.Ridge()

model.fit(X_train, y_train,sample_weight=w_tr)

Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/home/g/anaconda/lib/python2.7/site-packages/sklearn/linear_model/ridge.py", line 449, in fit
    return super(Ridge, self).fit(X, y, sample_weight=sample_weight)
  File "/home/g/anaconda/lib/python2.7/site-packages/sklearn/linear_model/ridge.py", line 338, in fit
    solver=self.solver)
  File "/home/g/anaconda/lib/python2.7/site-packages/sklearn/linear_model/ridge.py", line 286, in ridge_regression
    K = safe_sparse_dot(X, X.T, dense_output=True)
  File "/home/g/anaconda/lib/python2.7/site-packages/sklearn/utils/extmath.py", line 83, in safe_sparse_dot
    return np.dot(a, b)
MemoryError

【问题讨论】：

标签： python scikit-learn regression

【解决方案1】：

设置样本权重可能会导致 sklearn linear_model Ridge 对象处理您的数据的方式存在很大差异 - 特别是如果矩阵很高（n_samples > n_features），就像您的情况一样。如果没有样本权重，它将利用 X.T.dot(X) 是一个相对较小的矩阵（在您的情况下为 100x100）这一事实，因此将反转特征空间中的矩阵。在给定样本权重的情况下，Ridge 对象决定留在样本空间中（为了能够单独对样本进行加权，请参阅相关行 here 和 here 以了解在样本空间中工作的 _solve_dense_cholesky_kernel 的分支）和因此需要反转与 X.dot(XT) 大小相同的矩阵（在您的情况下是 n_samples x n_samples = 200000 x 200000 并且会在创建之前导致内存错误）。这实际上是一个实现问题，请参阅下面的手动解决方法。

TL;DR： Ridge 对象无法处理特征空间中的样本权重，会生成一个矩阵 n_samples x n_samples，这会导致您的内存错误

在 scikit learn 中等待可能的补救措施时，您可以尝试明确地解决特征空间中的问题，就像这样

import numpy as np
alpha = 1.   # You did not specify this in your Ridge object, but it is the default penalty for the Ridge object
sample_weights = w_tr.ravel()  # make sure this is 1D
target = y.ravel()  # make sure this is 1D as well
n_samples, n_features = X.shape
coef = np.linalg.inv((X.T * sample_weights).dot(X) + 
                      alpha * np.eye(n_features)).dot(sample_weights * target)

对于一个新样本 X_new，您的预测是

prediction = np.dot(X_new, coef)

为了确认这种方法的有效性，您可以在将代码应用于较小数量的样本（例如 300）时将这些 coef 与 model.coef_（在您拟合模型之后）进行比较，这不会导致与 Ridge 对象一起使用时出现内存错误。

重要提示：如果您的数据已经居中，则上面的代码仅与 sklearn 实现一致，即您的数据必须具有均值 0。在这里使用截距拟合实现全岭回归将有助于scikit 学习，所以最好发帖there。将数据居中的方法如下：

X_mean = X.mean(axis=0)
target_mean = target.mean()   # Assuming target is 1d as forced above

然后你使用提供的代码

X_centered = X - X_mean
target_centered = target - target_mean

对于新数据的预测，您需要

prediction = np.dot(X_new - X_mean, coef) + target_mean

编辑：截至 2014 年 4 月 15 日，scikit-learn 岭回归可以处理这个问题（出血边缘代码）。它将在 0.15 版本中提供。

【讨论】：

感谢 @ogrisel 向我指出 sklearn 线性模型以数据为中心的事实
This enhancement proposal 实现了上述功能。
scikit learn 的前沿版本现在支持特征空间中的样本权重。
从文档中我不清楚 sample_weights 向量是如何工作的。假设我的权重向量是 [10,1,1]，这是否意味着第一个样本比其他 2 个样本重要 10 倍？
是的。在这种情况下，它就像您有 12 个样本一样。第一个的 10 倍，第二个各一个。样本权重被实现为数据丢失项中每个样本前面的因子。

【解决方案2】：

你安装了哪个 NumPy 版本？

看起来最终的方法调用是numpy.dot(X, X.T)，如果在你的情况下X.shape = (200000,2)会生成一个200k×200k的矩阵。

尝试将您的观察结果转换为稀疏矩阵类型或减少您使用的观察值数量（可能有一种脊回归变体，一次使用几个观察值？）。

【讨论】：