【发布时间】:2016-02-02 07:06:21
【问题描述】:
我想训练我的数据集是 13159 个实例并使用词袋特征矩阵,特征数是 18800
当我不使用 10-fold cv 时,我的代码运行良好,甚至训练了整个数据集。 但是当我使用 10 fold cv index 时,它给了我内存错误
<class 'numpy.ndarray'>
train_data = np.array(data_content[train_index])MemoryError
我不认为这个数据集太大而无法分解内存空间。我的笔记本电脑是 4GB RAM 和 64 位
'''Cross-Validation'''
skf = cross_validation.StratifiedKFold(data_label, n_folds=10, shuffle=True, random_state=None)
'''For each fold, Do the classification'''
for train_index, test_index in skf:
print(type(data_content))
print (type(data_label))
train_data = np.array(data_content[train_index])
train_label = np.array(data_label[train_index])
test_data = np.array(data_content[test_index])
test_label = np.array(data_label[test_index])
【问题讨论】:
标签: python scikit-learn cross-validation