【发布时间】:2017-02-27 23:18:30
【问题描述】:
如果我使用来自sklearn 的TfidfVectorizer 来生成特征向量:
features = TfidfVectorizer(min_df=0.2, ngram_range=(1,3)).fit_transform(myDocuments)
然后我将如何生成特征向量来对新文档进行分类?由于您无法计算单个文档的 tf-idf。
用以下方式提取特征名称是否是一种正确的方法:
feature_names = TfidfVectorizer.get_feature_names()
然后根据feature_names?统计新文档的词频?
但是我不会得到包含单词重要性信息的权重。
【问题讨论】:
标签: python scikit-learn text-mining tf-idf text-analysis