【问题标题】:topic modeling and machine learning with LDA使用 LDA 进行主题建模和机器学习
【发布时间】:2017-11-03 15:30:15
【问题描述】:

我想标记一些文档,我尝试了 LDA 算法,但结果太乱了。我决定使用有监督的方法,所以我创建了自己的主题词矩阵,但我不知道如何生成文档主题矩阵。你知道一些可以使用主题词矩阵训练的好的主题建模算法吗?

【问题讨论】:

    标签: machine-learning lda topic-modeling


    【解决方案1】:

    如果您确实创建了正确的主题词矩阵。您只需要计算每个文档的主题权重。例如,您可以使用每个文档中每个单词的出现次数,然后将这些单词的主题权重相加。您可能需要添加一些系数,例如出现次数,但这很简单。

    您也可以使用 LDA 算法,但忽略用于处理主题词矩阵的训练步骤。我不知道您使用的是哪种实现,但是按照Sklearn 之一,您可以直接将矩阵作为components_ 属性传递,然后使用transform 函数。

    【讨论】:

    • 感谢您的回答,我使用 sklearn 实现。我按照你的建议做了,但出现了这个错误:AttributeError: 'LatentDirichletAllocation' object has no attribute 'exp_dirichlet_component_'我不是机器学习算法方面的专家,你能解释一下如何启动这个组件吗?
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2019-06-16
    • 2019-06-09
    • 2020-09-10
    • 1970-01-01
    • 2020-12-10
    • 1970-01-01
    • 2018-11-01
    相关资源
    最近更新 更多