【问题标题】:sentence classification in to predefined topics句子分类到预定义的主题
【发布时间】:2019-07-28 23:20:40
【问题描述】:

哪些无监督机器学习算法可用于根据句子中的某些单词将句子分类为固定数量的主题?像选举和总统的话属于政治范畴。我已经尝试过引导 lda 来实现这一点,还有其他建议吗?

【问题讨论】:

  • 您找到适合您问题的解决方案了吗?

标签: nlp text-classification unsupervised-learning


【解决方案1】:

您可以使用 Word2vec 模型创建句子向量,然后实现聚类算法,例如 k 表示以主题数作为这些向量的参数进行聚类。

【讨论】:

  • 但我想给出预定义的类别,如体育、政治等。我不认为 kmeans 能够做到这一点。
  • 在这种情况下使用KNN。它会解决你的问题,但它很耗时。
  • KNN 需要训练对吧?我没有训练该模型的数据,这就是我寻找无监督算法的原因。
  • 如果您在每个类别下都有一些关键字,则将它们用作标记数据。假设,一个词,如蝙蝠。因为这个词更接近板球和比赛(2 个最近的邻居)。这将属于运动,因为您的关键字板球和比赛是运动的关键字。
  • @YoshithaPenaganti 你能推荐一个不涉及标签的解决方案吗? (100% 无监督的解决方案)
猜你喜欢
  • 2018-10-26
  • 2020-11-25
  • 2014-11-22
  • 2011-09-24
  • 2020-05-12
  • 1970-01-01
  • 1970-01-01
  • 2023-04-11
  • 1970-01-01
相关资源
最近更新 更多