如何对训练数据和看不见的数据使用相同的 StringToWordVector 过滤器答案

【问题标题】：How to use same StringToWordVector filter for training data and unseen data如何对训练数据和看不见的数据使用相同的 StringToWordVector 过滤器
【发布时间】：2014-12-29 01:07:53
【问题描述】：

我已经为 weka 使用了 LibSVM 包装器，并成功构建了一个用于新闻分类（体育和商业）的分类器。我已经使用交叉验证方法对其进行了评估，并且接受了准确性。所以现在我需要使用该模型对一篇新的新闻文章进行分类。在将其提供给分类器之前，我需要使用 weka 中的 StringToWordVector 过滤器将其转移到特征向量。我如何需要使用与训练数据相同的过滤器。我怎样才能做到这一点？

【问题讨论】：

标签： weka libsvm document-classification

【解决方案1】：

我们可以使用下面给出的批量过滤选项，

 StringToWordVector filter = new StringToWordVector(); //initialise the filter
 //set filter options
 filter.setInputFormat(trainingData); //set input format to filter using training data
 Instances trainingDataFiltered = Filter.useFilter(trainingData, filter); // filter training data
 Instances testDataFiltered = Filter.useFilter(trainingData, filter); // filter test data

【讨论】：