【发布时间】:2018-10-26 05:41:42
【问题描述】:
我正在开展一个项目,根据反馈评论的主题将客户反馈分类到存储桶中。因此,我需要将句子分类为预定义主题列表中的主题之一。
例如:
“我每次登录时都会收到错误消息”必须以“登录”作为主题。
“让屏幕更丰富多彩”必须以“改进”为主题。
因此,主题与产品和背景非常相关。
LDA 似乎对我不起作用(如果我错了,请纠正我)。它检测一般意义上的主题,如“体育”、“政治”、“技术”等。但我需要检测上面提到的特定主题。
另外,我没有用于训练的标记数据。我只有cmets。 因此,监督学习方法看起来不是一种选择。
到目前为止我所做的尝试:
我使用谷歌新闻语料库(大约 3.5 GB)训练了一个 gensim 模型。 我通过删除停用词、标点符号等来清理句子。 我正在寻找,每个词最接近主题集中的哪个主题,并将该词标记到该主题。考虑到句子可能包含更多接近它所指主题的词,我正在挑选句子中最大数量的词映射到的主题。
例如:
如果句子中的 3 个单词映射到“登录”主题,句子中的 2 个单词映射到“改进”主题,我将句子标记为“登录”主题。
如果多个主题的数量有冲突,我会返回所有拥有最大数量的主题作为主题列表。
这种方法给了我公平的结果。但还不够好。
解决这个问题的最佳方法是什么?
【问题讨论】:
-
嗨。你有没有想出办法做到这一点?目前正在尝试做同样的事情:)
标签: python machine-learning nlp gensim topic-modeling