【发布时间】:2011-11-05 00:02:25
【问题描述】:
我们一直在使用 Weka Explorer GUI 来构建一些分类器模型。现在测试已经完成,我们想在 Java 应用程序中实现这个模型,以便它可以接收新消息。
所以对于新消息,我们需要对消息进行标记,将消息中的标记与用于为模型构建词向量的标记匹配,然后将这个词向量解析到模型。
我们应该如何进行这个过程?有没有可用的例子?
我们如何处理新标记(即出现在新文本消息中的单词,它们不属于用于构建模型的单词向量的一部分)?
对于分类器预处理/分词,我们使用 NGram 分词器、词干提取器和 IDF 变换。因此,我们需要弄清楚如何执行这些步骤,然后才能根据要分类的文本创建新实例。
作为一个方面 在资源管理器中构建分类器时,在更多选项下有一个按钮可以选择“输出分类器代码”,这听起来像是输出 Java 源代码来构建和使用模型,但是此选项被禁用。用许多不同的分类器(RF,NB)测试,它没有改变。我猜它没有为这些实现?
干杯!
【问题讨论】:
标签: java nlp machine-learning classification weka