【问题标题】:How to use same StringToWordVector filter for training data and unseen data如何对训练数据和看不见的数据使用相同的 StringToWordVector 过滤器
【发布时间】:2014-12-29 01:07:53
【问题描述】:
我已经为 weka 使用了 LibSVM 包装器,并成功构建了一个用于新闻分类(体育和商业)的分类器。我已经使用交叉验证方法对其进行了评估,并且接受了准确性。所以现在我需要使用该模型对一篇新的新闻文章进行分类。在将其提供给分类器之前,我需要使用 weka 中的 StringToWordVector 过滤器将其转移到特征向量。我如何需要使用与训练数据相同的过滤器。我怎样才能做到这一点?
【问题讨论】:
标签:
weka
libsvm
document-classification
【解决方案1】:
我们可以使用下面给出的批量过滤选项,
StringToWordVector filter = new StringToWordVector(); //initialise the filter
//set filter options
filter.setInputFormat(trainingData); //set input format to filter using training data
Instances trainingDataFiltered = Filter.useFilter(trainingData, filter); // filter training data
Instances testDataFiltered = Filter.useFilter(trainingData, filter); // filter test data