【发布时间】:2013-11-08 16:57:12
【问题描述】:
我有一个冗长的 txt 文件(每个文件大约 20.000-30.000 个字)的语料库(622 个文档),我试图在 R 中探索。我已经使用 tm 包进行了一些基本的文本挖掘,并希望现在深入研究主题建模。但是,由于对此非常陌生,我已经在为数据准备的一些基础知识而苦苦挣扎。我目前正在使用的文件示例可在此处获得:http://s000.tinyupload.com/?file_id=46554569218218543610
我假设只是将这些冗长的文档输入主题建模工具是没有意义的。所以我想把它们分成段落(或者可能是 300-500 个单词的集合,因为我的数据中有很多多余的段落中断和 OCR 错误)。您会在 VCorpus 中执行此操作,还是我应该实际划分我的源文件(例如使用 shell 脚本)?有什么建议或经验吗?
文本来自 OCR 的杂志文章,所以如果我将文档拆分,我想我应该在这些段落中添加一个元数据标签,告诉我它最初来自哪个问题(基本上只是原始文件名),对吗?有没有办法轻松做到这一点?
一般来说,任何人都可以推荐一个很好的 R 主题建模实践介绍吗?实际上,一个像三年级学生一样手把手教我的教程会很棒。我正在使用“topicmodels”和“lda”的文档,但是对于新手来说学习曲线相当陡峭。 编辑:为了清楚起见,我已经阅读了很多关于主题建模的流行介绍(例如Scott Weingart 和MALLET tutorials for Historians)。我在想 特定于 R 中的过程的东西。
希望这些问题不是完全多余的。感谢您抽出宝贵时间阅读!
【问题讨论】:
-
这可能更适合Cross Validated(即stats.SE)——很难说。 但请不要交叉发布。如果您在这里没有得到满意的答案,您可以标记您的问题并要求版主迁移它。
-
有没有看主题models vignette:cran.r-project.org/web/packages/topicmodels/vignettes/…
-
感谢您的 cmets。 1. 以后我会检查 Cross Validated,非常感谢。 2. topicmodels vignette 对理论背景很有帮助,让我对实际主题建模过程所需的功能和命令有一个模糊的概念。但是示例中的数据已经准备好,因此它并不能真正帮助我如何最好地对其进行预处理。不过谢谢!
标签: r lda topic-modeling