【发布时间】:2012-02-03 18:47:50
【问题描述】:
我正在进行潜在狄利克雷分析以进行一些研究,并不断遇到问题。大多数 lda 软件要求文档为 doclines 格式,即 CSV 或其他分隔文件,其中每一行代表整个文档。但是,Blei's lda-c 和动态主题模型软件要求数据格式为:[M] [term_1]:[count] [term_2]:[count] ... [term_N]:[count] 其中[M] 是文档中唯一术语的数量,与每个术语关联的 [count] 是该术语的次数出现了
在文档中。请注意,[term_1] 是一个整数,它索引
学期;它不是一个字符串。
有没有人知道可以让我快速转换为这种格式的实用程序?谢谢。
【问题讨论】:
-
我也遇到过类似的问题,请问您找到解决方法了吗?谢谢。
-
我还没有实现它,但this Python utility 已发布到主题模型邮件列表中,并且应该获取文本文件并将它们转换为正确的格式。
-
非常感谢,非常有帮助。