【问题标题】:Mahout LDA: what is the largest dictionary size that can practically be used?Mahout LDA:实际可以使用的最大字典大小是多少?
【发布时间】:2012-11-24 00:50:22
【问题描述】:

我在 EC2 上运行 Mahout 的 LDA(使用 Whirr)。您在实践中能够使用的最大词汇量是多少?能否分享一些 Hadoop/EC2 设置?

理想情况下,我想在包含 3M 文档(1B 标记)的语料库上运行 LDA,并使用包含 20M 标记的字典。

我已经尝试过 LDA 的其他 map-reduce 实现(hadoop-lda,LDA 先生),但并没有设法将其扩展得很远(请证明我错了!)

【问题讨论】:

    标签: amazon-ec2 mahout bigdata lda


    【解决方案1】:

    此类问题的最佳位置是 Mahout 邮件列表 [1]。我自己没有尝试过 LDA 实现,但它是由 twitter 提供的,所以我猜它应该适合你的规模需求。

    我相信邮件列表上的人可以给你一个更好的答案。

    [1]https://cwiki.apache.org/confluence/display/MAHOUT/Mailing+Lists,+IRC+and+Archives

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2010-11-26
      • 1970-01-01
      • 1970-01-01
      • 2021-10-10
      相关资源
      最近更新 更多