【发布时间】:2013-01-25 17:52:35
【问题描述】:
当使用 Weka 的 ReplaceMissingValues 为测试 arff 数据集而不是 训练数据集输入缺失值时,我有点担心。下面是命令行:
java -classpath weka.jar weka.filters.unsupervised.attribute.ReplaceMissingValues -c last -i "test_file_with_missing_values.arff" -o "test_file_with_filled_missing_values.arff"
从之前的帖子(Replace missing values with mean (Weka))了解到,Weka 的ReplaceMissingValues 只是简单地将每个缺失值替换为对应属性的均值。这意味着需要为每个属性计算平均值。虽然这个平均值的计算对于训练文件来说非常好,但对于测试文件来说就不行了。
这是因为在典型的测试场景中,我们不应该假设我们知道输入缺失值的测试属性的平均值。我们只有一个具有多个分类属性的测试记录,而不是将整个测试记录集放在一个测试文件中。因此,相反,我们将根据使用训练数据计算的平均值输入缺失值。那么上面的命令就会变得不正确,因为我们需要有另一个输入(火车属性的方法)。
以前有人想过这个吗?您如何使用 weka 解决这个问题?
【问题讨论】:
标签: weka