【问题标题】:Topic proportion of different variables other than documents文档以外的不同变量的主题比例
【发布时间】:2021-12-24 16:48:38
【问题描述】:

我在 reddit 数据中运行 stm。我已将 reddit 帖子分类为不同的仇恨言论,如反亚洲、反黑人等。我想计算给定仇恨言论成为特定主题的概率。

例如,我希望结果是这样的:主题 1 的 30% 是反亚洲的,主题 1 的 70% 是反黑人的,并且对于我拥有的所有主题数量来说都是如此。

另外,我想要另一个表格,其中的结果是反亚裔占我所有主题的 5%,而 95% 的主题是反黑人。

posts <- c("i dislike asian", "i dislike black")
anti-asian <- TRUE, FALSE
anti_black <- FAlSE, TRUE

【问题讨论】:

    标签: r topic-modeling


    【解决方案1】:

    预期概率是该二元出现向量的相对丰度,可以如下计算:

    anti_asian <- c(TRUE, FALSE, TRUE)
    table(anti_asian)[["TRUE"]]/length(anti_asian)
    #> [1] 0.6666667
    

    reprex package (v2.0.1) 于 2021 年 11 月 12 日创建

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2019-01-27
      • 1970-01-01
      • 1970-01-01
      • 2014-07-15
      • 2021-04-21
      • 1970-01-01
      • 1970-01-01
      • 2012-04-25
      相关资源
      最近更新 更多