使用 LDA 随时间分布主题答案

【问题标题】：Distribution of topics over time with LDA使用 LDA 随时间分布主题
【发布时间】：2023-03-26 11:31:01
【问题描述】：

我的目标是识别推文的主题并可视化主题的分布如何随时间变化。据我所知，最好的方法是使用 stm 包，但我有一些问题。所以，我唯一的选择是做一个简单的 LDA。

根据每条推文的主题份额，我汇总了每年的主题份额，并将每个主题份额与每年的总数进行了比较（与此处 https://towardsdatascience.com/thats-mental-using-lda-topic-modeling-to-investigate-the-discourse-on-mental-health-over-time-11da252259c3 的方法相同）。最终的可视化效果类似于： topics over time

我的问题是，是否可以使用 LDA 随着时间的推移可视化主题，在 STM 中这样做有什么意义？有什么重要的区别吗？

【问题讨论】：

【解决方案1】：

事后分析是衡量一段时间内主题流行度的好方法。 LDA 没有明确学习表示年份和主题之间关系的参数，但正如您所发现的，这并不意味着不存在关系。

LDA 通常不适用于推文等短文档。你也可以试试 k-means。

如果您想以使用任何其他回归模型的方式对关系进行论证，STM 会很有帮助。这样做的好处是您可能会获得与您的协变量更一致的主题，但这通常不是必需的。

从视觉上看，我真的不喜欢主题随时间变化的流图。例如，由于 2000 年的艺术高峰，你无法判断那一年其他主题是否发生了变化，因为它们都被从上面“推到一边”了。为每个主题提供自己的面积图可以更轻松地查看各个趋势。

【讨论】：

非常感谢！也许，你知道如何制作这些图表吗？我有一些使用 dfrtopics 包制作的图表，与此处所做的相同 (stackoverflow.com/questions/48764778/…)。但是，使用此功能（topic_series），大多数主题在期初的比例较低。我想是因为那个时候推文很少。所以，这些图表相当混乱。