【发布时间】:2023-03-08 18:34:01
【问题描述】:
我对在文档分类中计算 IDF(逆文档频率)有疑问。我有不止一个类别,其中包含多个用于培训的文档。我正在使用以下公式计算文档中每个术语的 IDF:
IDF(t,D)=log(Total Number documents/Number of Document matching term);
我的问题是:
- “语料库中的文档总数”是什么意思?文档是从当前类别计数还是从所有可用类别计数?
- “文档匹配项数”是什么意思?匹配文档的术语是从当前类别中计数还是从所有可用类别中计数?
【问题讨论】:
标签: machine-learning information-retrieval tf-idf document-classification categorization