【发布时间】:2014-01-02 06:25:04
【问题描述】:
我正在使用 Weka,需要添加另一个分类器 Rocchio,目前 Weka 不支持该分类器。我想知道有没有办法在 java 中为 Rocchio 编码并使用 weka 的文档预处理功能?
我已经在 matlab 中编写了 Rocchio 代码,那么是否有任何类似 weka.jar (java) 之类的 matlab 库可以简化我从文本文档进行文档预处理和矢量创建的工作?
最初我想通过 RapidMiner 或 Weka 使用文本文档到词向量的转换,然后对这些向量进行编码和操作以对它们进行分类,但是从这些工具生成的训练数据向量和测试数据向量具有不同的词汇维度。简而言之,我想避免整个文档预处理和转换为向量的过程,并希望利用我的时间对文档进行分类。
【问题讨论】: