【发布时间】:2017-02-21 18:07:04
【问题描述】:
我需要将我拥有的一些这种格式的数据转换成术语文档矩阵:http://pastebin.com/u1A7v1CV
本质上,每一行代表一个文档,表示为 word_label_id 和频率。每个 word_label_id 对应的单词在不同的文件中。
我想将其转换为术语文档矩阵,以便我可以对数据进行矢量化并对其进行聚类。
我已设法将数据转换为字典并使用 DictVectorizer 获得一次性编码的稀疏表示,因为有人建议我按以下方式执行此操作:
data = []
with open('../data/input.mat', 'r') as file:
for i, line in enumerate(file):
l = line.split()
d = dict([(k, v) for k, v in zip(l[::2], l[1::2])])
data.append(d)
v = DictVectorizer(sparse=True, dtype=float)
X = v.fit_transform(data)
这是输出的样子:
(0, 1312) 1.0
(0, 2704) 1.0
(0, 3322) 1.0
(0, 3492) 1.0
(0, 3506) 1.0
(0, 3660) 1.0
(0, 3674) 1.0
(0, 3813) 1.0
(0, 4782) 1.0
(0, 4827) 1.0
(0, 5208) 1.0
(0, 5721) 1.0
(0, 6105) 1.0
(0, 6907) 1.0
(0, 7252) 1.0
(0, 7615) 1.0
(0, 7890) 1.0
(0, 7891) 1.0
(0, 7906) 1.0
(0, 7935) 1.0
(0, 7954) 1.0
(0, 7962) 1.0
(0, 7986) 1.0
(0, 8000) 1.0
(0, 8012) 1.0
: :
(8579, 50731) 1.0
(8579, 51298) 1.0
(8579, 51686) 1.0
(8579, 51732) 1.0
(8579, 52439) 1.0
(8579, 52563) 1.0
(8579, 52621) 1.0
(8579, 52980) 1.0
(8579, 53013) 1.0
(8579, 53018) 1.0
(8579, 53155) 1.0
(8579, 53180) 1.0
(8579, 53317) 1.0
(8579, 53739) 1.0
(8579, 54114) 1.0
(8579, 54444) 1.0
(8579, 54489) 1.0
(8579, 54922) 1.0
(8579, 55074) 1.0
(8579, 55164) 1.0
(8579, 55311) 1.0
(8579, 55741) 1.0
(8579, 56010) 1.0
(8579, 56062) 1.0
(8579, 56946) 1.0
我不知道这意味着什么以及如何解释它。这是否等同于您在 scikit-learn 中从TfIdfVectorizer 得到的稀疏矩阵?
我对这个数据集的下一步应该是特征选择和 k-means 聚类。我只是不知道如何使用DictVectorizer 或data 字典来继续。
【问题讨论】:
标签: python scikit-learn k-means tf-idf dictvectorizer