【发布时间】:2014-09-03 04:05:35
【问题描述】:
我需要以编程方式使用 weka 对一些文本进行分类,但我遇到了问题,因为在与分类器一起使用之前需要过滤训练数据和要分类的数据(以相同的方式)。
我目前解决问题的方法是: 使用带有字符串属性和类的训练数据创建 arff。 在数据集上使用 StringToWordVector 并保存过滤器以供将来使用。 对结果数据使用 Attributeselection 过滤器并保存过滤器以供将来使用。 使用该数据训练分类器并保存分类器。 创建一个与 arff 具有相同属性的“实例”,并使用我想要分类的实例填充它,并且缺少类属性的值。 加载 StringToWordVector 过滤器并使用它来过滤实例。 加载 AttributeSlection 过滤器并使用它来过滤结果。 加载分类器,对结果进行分类。
似乎 StringToWordVector 正在按我的预期工作,并且对新数据使用与旧数据相同的单词集。问题在于 AttributeSelection 似乎再次尝试运行,却不知道我只是希望它使用它之前已经过滤的属性。
【问题讨论】:
标签: java classification weka text-classification