【发布时间】:2020-07-28 08:25:45
【问题描述】:
我有一组主题,每个主题都有一个关键字列表。 {Sports:['Ronaldo Messi Zidane','Football Baseball', 'Barcelona Real']...}
任务是对特定文档进行分类。分类也可以是多标签的。文档可以属于 topic1、topic2 等。我没有足够的数据,因此无法使用机器学习解决问题。因为我想检索高度精确的文档,所以我使用 k-gram index 解决了这个问题。
我将一组给定的主题关键字视为查询,并围绕它建立了一个 k-gram 索引。因此,我将所有键作为字符二元组,将值作为包含二元组的术语。这些术语是我要分类的文档中存在的术语。在遍历主题的每个关键字的帖子列表后,我得到了一组候选词及其相应的 jaccard 相似度得分。
- 在一个主题中,如何合并所有候选词的 jaccard 分数?
- 在所有主题中,我如何确定该文档属于哪个主题?
- 你认为这种方法能给我带来高精度的结果吗?
谢谢。
【问题讨论】:
标签: python nlp data-mining information-retrieval