【问题标题】:topic classification using k-gram index使用 k-gram 索引进行主题分类
【发布时间】:2020-07-28 08:25:45
【问题描述】:

我有一组主题,每个主题都有一个关键字列表。 {Sports:['Ronaldo Messi Zidane','Football Baseball', 'Barcelona Real']...}

任务是对特定文档进行分类。分类也可以是多标签的。文档可以属于 topic1、topic2 等。我没有足够的数据,因此无法使用机器学习解决问题。因为我想检索高度精确的文档,所以我使用 k-gram index 解决了这个问题。

我将一组给定的主题关键字视为查询,并围绕它建立了一个 k-gram 索引。因此,我将所有键作为字符二元组,将值作为包含二元组的术语。这些术语是我要分类的文档中存在的术语。在遍历主题的每个关键字的帖子列表后,我得到了一组候选词及其相应的 jaccard 相似度得分。

  1. 在一个主题中,如何合并所有候选词的 jaccard 分数?
  2. 在所有主题中,我如何确定该文档属于哪个主题?
  3. 你认为这种方法能给我带来高精度的结果吗?

谢谢。

【问题讨论】:

    标签: python nlp data-mining information-retrieval


    【解决方案1】:

    这似乎是一个多类多标签分类问题。因为提问者习惯于使用详细的词汇方法。本文here 将有助于构建实用的解决方案。

    【讨论】:

      猜你喜欢
      • 2021-02-09
      • 2017-11-09
      • 2016-08-06
      • 2022-07-05
      • 2018-11-22
      • 2019-03-15
      • 2021-05-30
      • 2013-09-08
      • 2018-10-30
      相关资源
      最近更新 更多