【问题标题】:K-means Spark varianceK-means 火花方差
【发布时间】:2016-08-04 00:34:43
【问题描述】:

我使用 k-means 算法和 Spark,但我不了解平方和误差与方差之间的关系。

这些值之间有关系吗?

我使用 k=1。值是

平方和误差为 10.5679450644

而标准差为:

标准开发:[2.05035446 2.52269532]

我可以根据标准差计算平方误差吗?

【问题讨论】:

  • 看来2.05*2.05+2.52*2.52 接近10.56

标签: apache-spark k-means standard-deviation


【解决方案1】:

方差定义为

1/(n-1) * sum of squares

人们通常使用 1/n 而不是 1/(n-1),但这对于大数据并没有太大变化。

标准差当然是sqrt(variance)

所以是的,三者之间有一个非常简单的关系:

stddev = sqrt(variance) = sqrt(SSQ / (n-1))

除了在您的示例中,stddev 是在每个轴上独立计算的;也许您的 SSQ 实际上是 平均 SSQ(很可能是 SSQ/n;不幸的是)。还是您的数据集只有 2 个点?

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2011-10-02
    • 2016-04-15
    • 2015-09-18
    • 1970-01-01
    • 2013-07-03
    • 2020-03-03
    • 2013-03-11
    相关资源
    最近更新 更多