文档以外的不同变量的主题比例答案

【问题标题】：Topic proportion of different variables other than documents文档以外的不同变量的主题比例
【发布时间】：2021-12-24 16:48:38
【问题描述】：

我在 reddit 数据中运行 stm。我已将 reddit 帖子分类为不同的仇恨言论，如反亚洲、反黑人等。我想计算给定仇恨言论成为特定主题的概率。

例如，我希望结果是这样的：主题 1 的 30% 是反亚洲的，主题 1 的 70% 是反黑人的，并且对于我拥有的所有主题数量来说都是如此。

另外，我想要另一个表格，其中的结果是反亚裔占我所有主题的 5%，而 95% 的主题是反黑人。

posts <- c("i dislike asian", "i dislike black")
anti-asian <- TRUE, FALSE
anti_black <- FAlSE, TRUE

【问题讨论】：

【解决方案1】：

预期概率是该二元出现向量的相对丰度，可以如下计算：

anti_asian <- c(TRUE, FALSE, TRUE)
table(anti_asian)[["TRUE"]]/length(anti_asian)
#> [1] 0.6666667

^{由reprex package (v2.0.1) 于 2021 年 11 月 12 日创建}

【讨论】：