【发布时间】:2012-11-24 00:50:22
【问题描述】:
我在 EC2 上运行 Mahout 的 LDA(使用 Whirr)。您在实践中能够使用的最大词汇量是多少?能否分享一些 Hadoop/EC2 设置?
理想情况下,我想在包含 3M 文档(1B 标记)的语料库上运行 LDA,并使用包含 20M 标记的字典。
我已经尝试过 LDA 的其他 map-reduce 实现(hadoop-lda,LDA 先生),但并没有设法将其扩展得很远(请证明我错了!)
【问题讨论】:
标签: amazon-ec2 mahout bigdata lda