【发布时间】:2016-03-02 20:36:41
【问题描述】:
我对 sklearn 的 TfidfVectorizer 在处理每个文档中单词的频率时有疑问。
我看到的示例代码是:
>>> from sklearn.feature_extraction.text import TfidfVectorizer
>>> corpus = [
>>> 'The dog ate a sandwich and I ate a sandwich',
>>> 'The wizard transfigured a sandwich'
>>> ]
>>> vectorizer = TfidfVectorizer(stop_words='english')
>>> print vectorizer.fit_transform(corpus).todense()
[[ 0.75458397 0.37729199 0.53689271 0. 0. ]
[ 0. 0. 0.44943642 0.6316672 0.6316672 ]]
我的问题是:如何解释矩阵中的数字?我知道 0 意味着这个词,即向导在第一个文档中出现 0 次,因此它是 0,但是我如何解释数字 0.75458397?是“吃”这个词在第一个文件中出现的频率吗?还是“吃”这个词在整个语料库中出现的频率?
【问题讨论】:
标签: python scikit-learn tf-idf