【发布时间】:2018-08-23 06:09:26
【问题描述】:
我试图了解当我们对文本文档 usign TfidfVectorizer 进行矢量化时如何计算 tf 和 idf 分数。
我正在了解 tf-idf 如何以两种方式进行排名,我将在下面写这些。
- tf = 根据在本文档中的重复频率对单个单词进行排名,idf = 根据在 scikit 中内置的“类似数据库”的集合中重复的频率对同一单词进行排名,了解几乎所有可能的单词在哪里被收集。在这里,我假设这个内置数据库是语料库。
- tf = 对单个作品在当前正在被 tfidfvectorize 读取的文档行中的重复频率进行排名,idf = 根据它在整个正在矢量化的文档中重复的次数进行排名。
如果我的理解是正确的,有人可以解释一下吗?如果不是,请纠正我理解的错误。
【问题讨论】:
标签: python-3.x scikit-learn feature-extraction tf-idf tfidfvectorizer