【问题标题】:Distribution of topics over time with LDA使用 LDA 随时间分布主题
【发布时间】:2023-03-26 11:31:01
【问题描述】:

我的目标是识别推文的主题并可视化主题的分布如何随时间变化。据我所知,最好的方法是使用 stm 包,但我有一些问题。所以,我唯一的选择是做一个简单的 LDA。

根据每条推文的主题份额,我汇总了每年的主题份额,并将每个主题份额与每年的总数进行了比较(与此处 https://towardsdatascience.com/thats-mental-using-lda-topic-modeling-to-investigate-the-discourse-on-mental-health-over-time-11da252259c3 的方法相同)。最终的可视化效果类似于: topics over time

我的问题是,是否可以使用 LDA 随着时间的推移可视化主题,在 STM 中这样做有什么意义?有什么重要的区别吗?

【问题讨论】:

    标签: r lda topic-modeling mallet


    【解决方案1】:

    事后分析是衡量一段时间内主题流行度的好方法。 LDA 没有明确学习表示年份和主题之间关系的参数,但正如您所发现的,这并不意味着不存在关系。

    LDA 通常不适用于推文等短文档。你也可以试试 k-means。

    如果您想以使用任何其他回归模型的方式对关系进行论证,STM 会很有帮助。这样做的好处是您可能会获得与您的协变量更一致的主题,但这通常不是必需的。

    从视觉上看,我真的不喜欢主题随时间变化的流图。例如,由于 2000 年的艺术高峰,你无法判断那一年其他主题是否发生了变化,因为它们都被从上面“推到一边”了。为每个主题提供自己的面积图可以更轻松地查看各个趋势。

    【讨论】:

    • 非常感谢!也许,你知道如何制作这些图表吗?我有一些使用 dfrtopics 包制作的图表,与此处所做的相同 (stackoverflow.com/questions/48764778/…)。但是,使用此功能(topic_series),大多数主题在期初的比例较低。我想是因为那个时候推文很少。所以,这些图表相当混乱。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2015-06-27
    • 1970-01-01
    • 2013-06-23
    • 2017-02-19
    • 1970-01-01
    • 2017-12-31
    • 2017-10-27
    相关资源
    最近更新 更多