【发布时间】:2018-07-22 13:54:21
【问题描述】:
我正在使用 tf - IDF 对文档中的术语进行排名。当术语按 tf - IDF 的降序排列时,前“n”个术语与该文档最相关。 当我们选择一个文档时,必须显示该文档的前 'n' 个术语。 我的问题是如何确定'n'的值? 例如:对于一个文档术语按降序排列的 tf - IDF 如下:
文档 1
- 总裁
- 奥巴马
- 巴拉克
- 演讲
- 就职典礼
- 来
- 看
- 再次
- 接受
现在,当我想显示文档 1 的主题时,我只需要前 5 个词,因为所有其他词都与文档无关或不是主题。 我如何确定文档中的这个断点? 提前致谢
【问题讨论】:
标签: information-retrieval tf-idf lda topic-modeling top-n