【发布时间】:2017-11-03 15:30:15
【问题描述】:
我想标记一些文档,我尝试了 LDA 算法,但结果太乱了。我决定使用有监督的方法,所以我创建了自己的主题词矩阵,但我不知道如何生成文档主题矩阵。你知道一些可以使用主题词矩阵训练的好的主题建模算法吗?
【问题讨论】:
标签: machine-learning lda topic-modeling
我想标记一些文档,我尝试了 LDA 算法,但结果太乱了。我决定使用有监督的方法,所以我创建了自己的主题词矩阵,但我不知道如何生成文档主题矩阵。你知道一些可以使用主题词矩阵训练的好的主题建模算法吗?
【问题讨论】:
标签: machine-learning lda topic-modeling
如果您确实创建了正确的主题词矩阵。您只需要计算每个文档的主题权重。例如,您可以使用每个文档中每个单词的出现次数,然后将这些单词的主题权重相加。您可能需要添加一些系数,例如出现次数,但这很简单。
您也可以使用 LDA 算法,但忽略用于处理主题词矩阵的训练步骤。我不知道您使用的是哪种实现,但是按照Sklearn 之一,您可以直接将矩阵作为components_ 属性传递,然后使用transform 函数。
【讨论】:
AttributeError: 'LatentDirichletAllocation' object has no attribute 'exp_dirichlet_component_'我不是机器学习算法方面的专家,你能解释一下如何启动这个组件吗?