【问题标题】:Is it possible to use topic modeling for a single document是否可以对单个文档使用主题建模
【发布时间】:2019-09-11 17:17:59
【问题描述】:

对单个文档使用主题建模是否合理,或者更准确地说,对单个文档使用 LDA-gibbs 方法在数学上是否可以。如果可以,k 和种子的值应该是多少。 另外,对于单个文档和大量文档,k 和种子的作用是什么。

K 和 SEED 是函数 LDA 的变量(在 r studio 中)。 如果我在这个问题的任何地方错了,也请告诉我。

为了讲述我的项目,我试图找出可用于表示单个文档内容的主要主题。

我已经尝试过使用 k=4,7,10。我的部分问题是 k 的值应该更好。

【问题讨论】:

    标签: lda topic-modeling topicmodels


    【解决方案1】:

    这真的取决于文件。一份文件可以是一本 700 页的书或一个句子。你的 k 也将取决于文件我认为你的意思是主题的数量?如果您的文档是整个 Wikipedia 语料库,则 1500 个主题可能是合适的,如果您的文档是有关电影的 cmets 列表,那么 20 个主题可能是合适的。可以使用肘部方法优化该数字,查看17

    种子可以是非常随机的,它只是一个离开者,因此您的结果可以被复制 - 如果您将其留空,它就会运行。我会说尝试一下并检查您的连贯性,关注您的主题,如果看起来正确,那么您可以确定您可以在一个文档上训练 LDA。单个文档的处理速度应该很快。

    这是一个在 python 中使用种子参数的例子。我的数据集是 1,048,575 行,注意种子要高得多:

    ldamallet = gensim.models.wrappers.LdaMallet(mallet_path, corpus=bow_corpus,
       num_topics=20, alpha =.1, id2word=dictionary, iterations = 1000, 
       random_seed = 569356958)

    【讨论】:

    • 我需要在一篇文章中搜索 4 个主要主题。所以我一直使用 k=4 和种子 =1(因为我在一个网站上研究过种子是您提供的文件的数量)作为输入)。这是一个正确的方法/我在做正确的事吗??
    • 没有种子不是文件的数量。当我们想要复制结果时我们使用种子,例如如果我将种子设置为 123 运行它然后重新运行它我应该得到相同的结果,就像我们没有设置种子一样,每次运行模型时你的主题都会改变。跨度>
    猜你喜欢
    • 2016-10-12
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-07-04
    相关资源
    最近更新 更多