【问题标题】:Handling Missing values in SVM in apache spark ML Lib在 apache spark MLLib 中处理 SVM 中的缺失值
【发布时间】:2015-12-30 10:52:02
【问题描述】:

我有一个分类任务。我想使用 apache spark ml lib SVM 算法进行分类。我有 n 维的输入数据。在特征向量中,一些维度可能会丢失。

如何处理缺失值?我认为将缺失值假设为零或其他值是错误的。

【问题讨论】:

    标签: machine-learning svm apache-spark-mllib


    【解决方案1】:

    您有两个选择: 1-省略具有缺失值的向量 2- 只是估算缺失值,您可以使用平均值或众数

    我建议用spark做,很简单的代码,这里有一个例子:

    example

    【讨论】:

      【解决方案2】:

      没错。 ML Lib 不会估算缺失值,填写 0 会扭曲您的结果。但是,WEKA 有一个 ReplaceMissingValues 包可能对您有用;这实现了一种插补算法。 http://weka.sourceforge.net/doc.stable/weka/classifiers/functions/LibSVM.html

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 2016-09-17
        • 1970-01-01
        • 2016-01-05
        • 2016-03-07
        • 2016-06-23
        • 2018-02-17
        • 2017-10-18
        • 2015-06-19
        相关资源
        最近更新 更多