【发布时间】:2019-06-09 10:04:42
【问题描述】:
在使用scikit's tf-idf vectorizer 对多个文档进行矢量化后,有没有办法让每个文档获得最“有影响力”的术语?
我只找到了为整个语料库而不是每个文档获取最“有影响力”的术语的方法。
【问题讨论】:
-
您如何定义每个文档中最有影响力的术语?具体来说,它和文档中tf-idf最高的词有什么区别?
-
要么在每个文档本身而不是整个语料库上使用 td-idf,要么通过新文档的词汇在整个语料库上过滤 td-idf-results。
-
@AmiTavory 我想这就是我真正想要的。我不确定如何为每个文档获取具有最高 tf-idf 的单词。抱歉,我对此还是很陌生
标签: python scikit-learn tf-idf