【问题标题】:Creating a correlation matrix from a corpus in R从 R 中的语料库创建相关矩阵
【发布时间】:2019-11-25 17:03:22
【问题描述】:

我有一个很大的语料库,我想为整个语料库中的所有术语创建一个相关矩阵。我可以使用以下代码找到语料库中任何给定单词的相关性:

      findAssocs(corp_dtm, terms = "serachword", corlimit = 0.01)

但我想绘制这些数据,使用相关性作为权重,所以我需要一个包含所有相关性的矩阵。有没有简单的方法可以做到这一点?

     hello   world   my     name     is     liam

hello   1      .3     .04    .21     .88    .00

world   .3     1

my      .04            1

name    .21                   1

is      .88                           1

liam    .00                                    1

像这样,但都填了。

谢谢!

【问题讨论】:

  • 如果您包含一个简单的reproducible example,其中包含可用于测试和验证可能解决方案的示例输入和所需输出,则会更容易为您提供帮助。

标签: r matrix correlation corpus


【解决方案1】:

据我所知,稀疏矩阵没有相关函数。所以需要先将稀疏矩阵转化为普通矩阵。请参见下面的代码行。

但我建议不要这样做,因为这将首先创建一个密集矩阵,如果您的文档术语矩阵稍微大一点,您很有可能会遇到内存问题。而你表示是这样的。

cor_matrix <- cor(as.matrix(corp_dtm))

【讨论】:

  • 好的。谢谢你。我确实设法想出了这样的代码,但它一直在运行,R 会停止工作,所以我认为我做错了什么,但它只是一个太大的矩阵。谢谢。
猜你喜欢
  • 2013-09-07
  • 1970-01-01
  • 1970-01-01
  • 2013-09-15
  • 2012-05-27
  • 1970-01-01
  • 1970-01-01
  • 2021-07-27
相关资源
最近更新 更多