CLUTO 文档术语矩阵到 tm DocumentTermMatrix答案

【问题标题】：CLUTO Document Term Matrix to tm DocumentTermMatrixCLUTO 文档术语矩阵到 tm DocumentTermMatrix
【发布时间】：2013-04-02 14:55:12
【问题描述】：

我有一个 cluto 格式的文档术语矩阵：

#Document #Term #TotalItem
term-x weight-x term-y weight-y (for only nonzeros terms, a row per document)

我想从这个文件中创建 DocumentTermMatrix(tm package) 而不是语料库，这可能吗？

Cluto File:
2 3 3
1 3 3 4
2 8

Row File:
car
plane

Column File:
x
y
z

解决方案：

dtm = as.DocumentTermMatrix(read_stm_CLUTO(file), weightTf);
rows <- scan("rows.txt", what="", sep="\n");
columns <- scan("columns.txt", what="", sep="\n");

dtm$dimnames = list(rows,columns);

【问题讨论】：

这个怎么样？ require(slam); as.DocumentTermMatrix(read_stm_CLUTO(file), weightTf)
@Ben Perfect，您能否将其输入为答案，以便我接受。有什么方法可以传递行名和列名吗？

标签： r text-mining tm cluto

【解决方案1】：

应该这样做：

require(slam)
as.DocumentTermMatrix(read_stm_CLUTO(file), weightTf)

如果您可以链接到您的 CLUTO 文件或将其摘录添加到您的 Q 中，我们可以查看行名和列名。

提示：https://r-forge.r-project.org/scm/viewvc.php/pkg/R/foreign.R?root=tm&view=diff&r1=1127&r2=1127&diff_format=s

【讨论】：

看起来你已经对 col/row 名称进行了排序。你可以做dtm$dimnames = list(Docs = rows, Terms = columns)