【发布时间】:2018-12-14 10:55:48
【问题描述】:
我从中了解到的是,如果 max_feature = n;这意味着它是根据 Tf-Idf 值选择前 n 个 Feature。我浏览了 scikit-learn 上的 TfidfVectorizer 文档,但没有正确理解。
【问题讨论】:
-
不,它根据计数(语料库中的词频)选择前 n 个特征,而不是 tfidf
-
我想根据 tfidf 值选择整个语料库中的前 n 个特征
-
Tfidf 将取决于每个文档的单词。是否要使用
idf值对其进行排序? -
不,我想要每行中基于 'tf-idf' 值的前 n 个单词。
标签: scikit-learn tfidfvectorizer