【发布时间】:2019-08-22 17:32:39
【问题描述】:
我想在单个文档中查找某些词(如经济、技术)的相关性。
该文档大约有 30 页,其想法是提取所有文本并确定该文档的单词相关性。
我知道TF-IDF是用在一组文档中的,但是有没有可能用TF-IDF来解决这个问题呢?如果没有,我该如何在 Python 中做到这一点?
【问题讨论】:
-
您可以从更大的文件集合中构建一个 IDF 向量。您需要 一些东西 进行比较以确定基线。
-
TF-IDF 的
IDF部分使这种方法违反直觉,因为它假设 单个 文档中的频率很高,但整个文档中的频率较低非常重要。只考虑词频并删除停用词可能会更好 -
也许使用汇总算法可行?
标签: python nltk word tf-idf tfidfvectorizer