【发布时间】:2013-12-18 14:34:18
【问题描述】:
我相信 SGDClassifier() 和 loss='log' 支持多标签分类,我不必使用 OneVsRestClassifier。 Check this
现在,我的数据集非常大,我正在使用 HashingVectorizer 并将结果作为输入传递给 SGDClassifier。我的目标有 42048 个特征。
当我运行这个时,如下:
clf.partial_fit(X_train_batch, y)
我得到:ValueError: bad input shape (300000, 42048)。
我也使用类作为参数如下,但还是同样的问题。
clf.partial_fit(X_train_batch, y, classes=np.arange(42048))
在 SGDClassifier 的文档中,它说y : numpy array of shape [n_samples]
【问题讨论】:
-
X_train_batch和y的形状是什么? -
(300000, 1048576) 和 (300000, 42048) 分别是 scipy 稀疏矩阵
标签: machine-learning classification scikit-learn stochastic-process