【发布时间】:2015-08-04 23:48:21
【问题描述】:
在 scikit-learn 中,如何对 scipy.sparse 矩阵中已经存在的数据运行 HashingVectorizer?
我的数据是 svmlight 格式,所以我用 sklearn.datasets.load_svmlight_file 加载它并获得一个 scipy.sparse 矩阵来处理。
来自 scikit-learn 的 TfidfTransformer 可以输入这样一个稀疏矩阵来转换它,但是我怎样才能将相同的稀疏矩阵提供给 HashingVectorizer 以使用它呢?
编辑: 是否有可能在稀疏矩阵上使用一系列方法调用,可能使用FeatureHasher?
编辑 2:在与下面的用户 cfh 进行有用的讨论之后,我的目标是从输入:从 svmlight 数据获取的稀疏计数矩阵到输出:令牌出现的矩阵,例如 HashingVectorizer 给出的。这怎么可能?
我在下面提供了一个示例代码,非常感谢有关如何执行此操作的一些帮助,在此先感谢:
from sklearn.feature_extraction.text import TfidfTransformer
import numpy as np
from sklearn.feature_extraction.text import HashingVectorizer
from scipy.sparse import csr_matrix
# example data
X_train = np.array([[1., 1.], [2., 3.], [4., 0.]])
print "X_train: \n", X_train
# transform to scipy.sparse.csr.csr_matrix to be consistent with output from load_svmlight_file
X_train_crs = csr_matrix(X_train)
print "X_train_crs: \n", X_train_crs
# no problem to run TfidfTransformer() on this csr matrix to get a transformed csr matrix
transformer = TfidfTransformer()
tfidf = transformer.fit_transform(X_train)
print "tfidf: \n", tfidf
# How do I use the HashingVectorizer with X_train_crs ?
hv = HashingVectorizer(n_features=2)
【问题讨论】:
-
我不明白这个问题。
HashingVectorizer计算一个文档术语矩阵,就是你可以输入TfidfTransformer的那种矩阵。为什么要再次散列这样的矩阵? -
TfidfTransformer“将计数矩阵转换为标准化的 tf 或 tf-idf 表示”。我有一个计数矩阵,但我需要在其上应用散列技巧。HashingVectorizer“将文本文档集合转换为标记出现的矩阵”。所以我的目标是:输入:计数矩阵和输出:标记出现的散列矩阵。 -
我不认为这就是散列技巧的工作原理,您应该在解析期间对单词进行散列,而不是构建字典:en.wikipedia.org/wiki/…
-
换句话说,
HashingVectorizer已经实现了散列技巧。 -
我拥有的数据是 svmlight 格式。我看到它目前可能工作的唯一方法是读取 svmlight 数据,在文本文件中再次写入,然后通过
HashingVectorizer再次读取,但这似乎非常低效。有什么建议吗?
标签: python matrix machine-learning scipy scikit-learn