从 R 中的语料库创建相关矩阵答案

【问题标题】：Creating a correlation matrix from a corpus in R从 R 中的语料库创建相关矩阵
【发布时间】：2019-11-25 17:03:22
【问题描述】：

我有一个很大的语料库，我想为整个语料库中的所有术语创建一个相关矩阵。我可以使用以下代码找到语料库中任何给定单词的相关性：

      findAssocs(corp_dtm, terms = "serachword", corlimit = 0.01)

但我想绘制这些数据，使用相关性作为权重，所以我需要一个包含所有相关性的矩阵。有没有简单的方法可以做到这一点？

     hello   world   my     name     is     liam

hello   1      .3     .04    .21     .88    .00

world   .3     1

my      .04            1

name    .21                   1

is      .88                           1

liam    .00                                    1

像这样，但都填了。

谢谢！

【问题讨论】：

如果您包含一个简单的reproducible example，其中包含可用于测试和验证可能解决方案的示例输入和所需输出，则会更容易为您提供帮助。

标签： r matrix correlation corpus

【解决方案1】：

据我所知，稀疏矩阵没有相关函数。所以需要先将稀疏矩阵转化为普通矩阵。请参见下面的代码行。

但我建议不要这样做，因为这将首先创建一个密集矩阵，如果您的文档术语矩阵稍微大一点，您很有可能会遇到内存问题。而你表示是这样的。

cor_matrix <- cor(as.matrix(corp_dtm))

【讨论】：

好的。谢谢你。我确实设法想出了这样的代码，但它一直在运行，R 会停止工作，所以我认为我做错了什么，但它只是一个太大的矩阵。谢谢。