【发布时间】:2019-08-29 08:14:14
【问题描述】:
我正在处理 python 中的文本分类问题,如果单词是否在文本中,我会根据 {0,1} 构建一个训练数组。
array([[0., 1., 1., ..., 0., 0., 0.],
[0., 1., 1., ..., 0., 0., 0.],
[0., 1., 1., ..., 0., 0., 0.],
...,
[0., 1., 1., ..., 0., 0., 0.],
[0., 1., 1., ..., 0., 0., 0.],
[0., 1., 1., ..., 0., 0., 0.]])
因为我想在上面运行 SVM,所以我想减少我的功能。在 scikit learn 我发现了这个:https://scikit-learn.org/stable/modules/feature_selection.html 方差阈值设置为:
sel = VarianceThreshold(threshold=(.8 * (1 - .8)))
x_train_red = sel.fit_transform(x_train)
从减少我正在减少我的形状:
(7808, 2000)
(7808, 97)
它只会减少每行有 1 或每行有 0 的未来吗?或者它是如何工作的?
【问题讨论】:
标签: python scikit-learn