【问题标题】:Using topic modeling Java toolkit使用主题建模 Java 工具包
【发布时间】:2015-02-18 13:41:10
【问题描述】:

我正在研究文本分类,我想使用主题模型 (LDA)。 我的语料库包含至少 24,000 个波斯新闻文件。语料库中的每个文档都是从新闻中提取的(关键字,权重)对的格式。

我看到了两个 Java 工具包:mallet 和 lingpipe。 我已阅读有关导入数据的槌教程,它以纯文本形式获取数据,而不是我拥有的格式。有什么办法可以改变它吗?

还阅读了一些关于 lingpipe 的信息,教程中的示例是使用整数数组。大数据方便吗?

我需要知道哪种 LDA 实现更适合我?还有其他适合我的数据的实现吗? (在 Java 中)

【问题讨论】:

    标签: topic-modeling mallet lingpipe


    【解决方案1】:

    从关键字权重文件中,您可以创建一个人工文本,其中包含具有给定权重的随机顺序的单词。在生成的文本上运行 mallet 以检索主题。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2014-05-10
      • 1970-01-01
      • 2011-07-15
      • 1970-01-01
      • 1970-01-01
      • 2012-07-26
      • 1970-01-01
      相关资源
      最近更新 更多