【问题标题】:How can I measure the "distance" between two CDFs?如何测量两个 CDF 之间的“距离”?
【发布时间】:2020-09-06 23:52:22
【问题描述】:

我有一组数据,其中包含表示对象的有趣数字。

数据还具有 CDF 作为属性。

"X"    "Y"    "CDF_Z"
10     31     (piece-wise continuous function)
18     41     ...
...

现在,我想使用 K-means 聚类算法对数据进行聚类。 我可以对“X”和“Y”使用欧几里得距离,但我不知道如何测量两个 CDF 之间的距离。

有人对此有想法吗? 谢谢,

【问题讨论】:

    标签: r


    【解决方案1】:

    【讨论】:

      【解决方案2】:

      这里的作者http://eliassi.org/papers/henderson-sac15.pdf (EP-MEANS: An Efficient Nonparametric Clustering of 经验概率分布)表明采用 KS 检验统计量并不是一个好主意,因为:

      "KS 不考虑底层空间中的距离 价值观。例如,任何两个具有全部质量的分布 在一个点上,KS 统计量为 1(如果这些点是 distinct),无论分布相距多远。考虑 三个分布,每个分布的质量分别为 0、1 和 100 分别。 KS 认为聚类 ((1,2),(3)) 与 聚类((1),(2,3)),虽然前者在直觉上更好"

      他们建议使用曲线之间的整个区域(也称为地球移动距离)作为距离度量,并展示他们方法的优势。

      【讨论】:

      • Ludecan 刚刚展示的应用示例如下:noamlupu.com/EMD.pdf。有一个非常明确的经验解释(尽管针对特定领域——政治学)。可能对那些不熟悉所涉及的数学的人(比如我自己)有用。还有 R 代码可以运行它。
      猜你喜欢
      • 2020-04-13
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2020-11-18
      • 2013-02-13
      • 2015-05-03
      • 2012-05-13
      • 1970-01-01
      相关资源
      最近更新 更多