【发布时间】:2015-12-30 10:52:02
【问题描述】:
我有一个分类任务。我想使用 apache spark ml lib SVM 算法进行分类。我有 n 维的输入数据。在特征向量中,一些维度可能会丢失。
如何处理缺失值?我认为将缺失值假设为零或其他值是错误的。
【问题讨论】:
标签: machine-learning svm apache-spark-mllib
我有一个分类任务。我想使用 apache spark ml lib SVM 算法进行分类。我有 n 维的输入数据。在特征向量中,一些维度可能会丢失。
如何处理缺失值?我认为将缺失值假设为零或其他值是错误的。
【问题讨论】:
标签: machine-learning svm apache-spark-mllib
【讨论】:
没错。 ML Lib 不会估算缺失值,填写 0 会扭曲您的结果。但是,WEKA 有一个 ReplaceMissingValues 包可能对您有用;这实现了一种插补算法。 http://weka.sourceforge.net/doc.stable/weka/classifiers/functions/LibSVM.html
【讨论】: