【发布时间】:2014-08-16 14:52:42
【问题描述】:
使用 tm 包从语料库构建文档术语矩阵非常简单。 我想从文档术语矩阵构建一个语料库。
令 M 为文档集中的文档数。 设 V 是该文档集的词汇表中的术语数。那么文档术语矩阵是一个 M*V 矩阵。
我还有一个长度为 V 的词汇向量。词汇向量中是由文档术语矩阵中的索引表示的单词。
从 dtm 和词汇向量,我想构造一个“语料库”对象。这是因为我想阻止我的文档集。我手动构建了我的 dtm 和 vocab - 即从来没有代表我的数据集的 tm“语料库”对象,所以我不能使用该函数,
tm_map(corpus, stemDocument, language="english")
我一直在尝试构建一种解决方法,在其中我提取词汇表并只保留唯一的单词,但是尝试保持 dtm 和词汇向量之间的对应关系会变得有些复杂。
理想情况下,最终结果是我的词汇向量是词干化的,并且只包含唯一条目,并且 dtm 索引对应于词干化词向量向量。如果您能想到其他方法来做到这一点,我也将不胜感激。
如果我可以简单地从我的 dtm 和词汇向量构建一个 tm“语料库”,对语料库进行词干化,然后转换回 dtm 和词汇向量(我已经知道如何进行这些转换),那么我的麻烦就会得到解决。
如果我能进一步澄清问题,请告诉我。
【问题讨论】:
-
您没有提供minimal, reproducible example,因此很难提供具体帮助。理想情况下,将代表您的数据的样本对象放在一起,我们会测试不同的解决方案来转换它。鉴于词干提取函数应该适用于任何字符值向量,您似乎不太可能不得不返回语料库。
-
谢谢@MrFlick。适当地指出,我应该始终提供一个最小的、可重现的示例。我使用词干向量的解决方法很混乱,但我会发布一个 MRE 并尽快更新。
标签: r text-mining tm corpus lda