【发布时间】:2016-11-30 13:33:46
【问题描述】:
我将文档排列在文件夹中,称为类别。对于新的输入(例如提出的问题),我必须确定它的类别。使用 MALLET 执行此操作的最佳方法是什么?我已经阅读了多篇关于此的文章,但找不到这样的方法。
另外,我需要对输入文本进行序列标记吗?
【问题讨论】:
标签: machine-learning text-classification document-classification mallet
我将文档排列在文件夹中,称为类别。对于新的输入(例如提出的问题),我必须确定它的类别。使用 MALLET 执行此操作的最佳方法是什么?我已经阅读了多篇关于此的文章,但找不到这样的方法。
另外,我需要对输入文本进行序列标记吗?
【问题讨论】:
标签: machine-learning text-classification document-classification mallet
获得培训文档后,您需要创建一个 Mallet 可以理解的文件。进入Mallet的bin文件夹,在命令行输入如下命令--
mallet import-dir --input directory:\...\parentfolder\* --preserve-case --remove-stopwords --binary-features --gram-sizes 1 --output directory:\mallet-file-name
这只是一个例子。如果您键入以下内容,则可以完全显示此查询中的参数--
mallet import-dir --help
创建此槌文件后,您需要通过输入如下命令来训练模型--
mallet train-classifier --trainer algorithmname --input 目录:\mallet-file-name --output-classifier 目录:...\model
现在模型已创建,您可以使用该模型对具有未知类的文档进行分类。
mallet classify-file --input directory:\...\data --output - --classifier classifier
这将在标准输出上提供名为 data 的文档的类。
是否需要使用序列标记取决于您尝试分类的数据。
【讨论】: