【发布时间】:2012-05-03 10:26:56
【问题描述】:
在 Weka 中有一个名为“ReplaceMissingValues”的过滤器,它允许使用每个属性的平均值替换数据集中的所有缺失值。我想使用属于某个类的值的平均值来替换某个属性的缺失值。例如,在二进制数据集中,我认为使用仅使用属于正类的记录计算的平均值来替换属于正类的记录中的属性的缺失值更正确。那么怎么可能实现呢?我们如何只替换属于某个类的记录的值?
【问题讨论】:
标签: replace weka missing-data
在 Weka 中有一个名为“ReplaceMissingValues”的过滤器,它允许使用每个属性的平均值替换数据集中的所有缺失值。我想使用属于某个类的值的平均值来替换某个属性的缺失值。例如,在二进制数据集中,我认为使用仅使用属于正类的记录计算的平均值来替换属于正类的记录中的属性的缺失值更正确。那么怎么可能实现呢?我们如何只替换属于某个类的记录的值?
【问题讨论】:
标签: replace weka missing-data
如果您想通过获取从特定 A 类的训练实例计算的平均值来替换 A 类的缺失值,那么您就是在“偏向”您的数据集。为避免偏差(最终会使您的训练模型过拟合),明智的做法是使用默认的“替换缺失值”功能——即考虑所有训练实例的均值和模式,而不仅仅是特定类。
【讨论】: