【问题标题】:Machine Learning Library Specialized for documents专门用于文档的机器学习库
【发布时间】:2014-11-06 10:34:51
【问题描述】:

我正在做一个项目,我需要找到一个用 java 编写的专门用于文档分类的机器学习库。谁能给我一些例子?

【问题讨论】:

    标签: java machine-learning nlp document-classification


    【解决方案1】:

    机器学习框架 MALLET (http://mallet.cs.umass.edu/classification.php) 和 Weka (http://www.cs.waikato.ac.nz/ml/weka/) 都可以进行文档分类。与 Mahout 或 Spark 相比,它们都很容易上手。

    【讨论】:

      【解决方案2】:

      取决于您要寻找的机器学习类型。

      问题的语言部分(解析文档、提取实体等)可以显着改善结果,还有 ML 算法部分。 对于后者,请查看 Apache Mahout,例如 - 它还附带文档分类的示例。特别是如果您打算处理大量数据。斯坦福分类器也是一个不错的选择。

      【讨论】:

      • 这完全取决于您需要的语言和分析水平。对于许多分类任务,一个简单的分词器+词干分析器就足够了(Lucene 会这样做,或者您可以自己分词并使用 Snowball 词干分析器)。对于更高级的分析,您可以使用已经提到的斯坦福解析器或 GATE,或 Apache OpenNLP。更繁重的方法可能需要整个管道,例如 UIMA 或 GATE。
      【解决方案3】:

      【讨论】:

      • 我还会添加 OpenNLP DocumentCategorizer。许多人使用它。
      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2010-12-14
      • 2018-03-04
      • 1970-01-01
      • 2020-05-29
      • 1970-01-01
      • 2010-10-23
      • 1970-01-01
      相关资源
      最近更新 更多