【问题标题】:Text Classification/Document Classification with Sequence Tagging with Mallet使用 Mallet 进行序列标记的文本分类/文档分类
【发布时间】:2016-11-30 13:33:46
【问题描述】:

我将文档排列在文件夹中,称为类别。对于新的输入(例如提出的问题),我必须确定它的类别。使用 MALLET 执行此操作的最佳方法是什么?我已经阅读了多篇关于此的文章,但找不到这样的方法。

另外,我需要对输入文本进行序列标记吗?

【问题讨论】:

    标签: machine-learning text-classification document-classification mallet


    【解决方案1】:
    1. 首先,您需要从排列为文件夹的文档中开发一个训练模型。对于 Mallet,每个文件夹将包含一个或多个文档,每个文件夹将代表它们的类。

    获得培训文档后,您需要创建一个 Mallet 可以理解的文件。进入Mallet的bin文件夹,在命令行输入如下命令--

    mallet import-dir --input directory:\...\parentfolder\* --preserve-case --remove-stopwords --binary-features --gram-sizes 1 --output directory:\mallet-file-name
    

    这只是一个例子。如果您键入以下内容,则可以完全显示此查询中的参数--

    mallet import-dir --help
    
    1. 创建此槌文件后,您需要通过输入如下命令来训练模型--

      mallet train-classifier --trainer algorithmname --input 目录:\mallet-file-name --output-classifier 目录:...\model

    现在模型已创建,您可以使用该模型对具有未知类的文档进行分类。

    mallet classify-file --input directory:\...\data --output - --classifier classifier
    

    这将在标准输出上提供名为 data 的文档的类。

    是否需要使用序列标记取决于您尝试分类的数据。

    【讨论】:

      猜你喜欢
      • 2015-09-30
      • 2017-04-11
      • 2019-05-20
      • 2011-07-29
      • 1970-01-01
      • 2015-04-06
      • 2016-03-20
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多