【发布时间】:2016-03-30 16:22:36
【问题描述】:
我使用 sklearn 使用以下命令计算文档的 TFIDF(词频逆文档频率)值:
from sklearn.feature_extraction.text import CountVectorizer
count_vect = CountVectorizer()
X_train_counts = count_vect.fit_transform(documents)
from sklearn.feature_extraction.text import TfidfTransformer
tf_transformer = TfidfTransformer(use_idf=False).fit(X_train_counts)
X_train_tf = tf_transformer.transform(X_train_counts)
X_train_tf 是一个scipy.sparse 形状为(2257, 35788) 的矩阵。
如何获取特定文档中单词的 TF-IDF?更具体地说,如何获取给定文档中具有最大 TF-IDF 值的单词?
【问题讨论】:
标签: python scikit-learn