【发布时间】:2014-07-10 15:53:11
【问题描述】:
此页面:http://scikit-learn.org/stable/modules/feature_extraction.html 提及:
由于 tf–idf 是一个非常常用于文本特征的类,还有一个名为 TfidfVectorizer 的类,它结合了 CountVectorizer 和 TfidfTransformer 在单个模型中。
然后我按照代码在我的语料库上使用 fit_transform()。如何获取 fit_transform() 计算的每个特征的权重?
我试过了:
In [39]: vectorizer.idf_
---------------------------------------------------------------------------
AttributeError Traceback (most recent call last)
<ipython-input-39-5475eefe04c0> in <module>()
----> 1 vectorizer.idf_
AttributeError: 'TfidfVectorizer' object has no attribute 'idf_'
但缺少此属性。
谢谢
【问题讨论】:
-
从文档中的例子来看,我会说你应该使用
vectorizer.fit_transform(corpus)的返回值。 -
返回值是一个存储归一化特征的scipy sparse_matrix。
标签: python scikit-learn tf-idf