【问题标题】:Complete link clustering完整的链路聚类
【发布时间】:2015-06-22 20:11:39
【问题描述】:

我猜想对于Complete-linkage clustering,来自同一个集群的两个元素总是会比来自另一个集群的其他元素更接近。

更正式的说法:

让$C$ 是一个聚类。 $\not\exists z \in C_j$ s.t. $\bigtriangleup(x, z)

我还不能证明这个猜想,所以我想知道我是对还是错。如果确实如此,我将不胜感激证明的草图。我很确定我可以从那里开始工作。

顺便说一句(我认为这并不重要),我将在一个一维数据集上应用聚类算法。

非常感谢您的意见。

【问题讨论】:

  • 我真的希望 StackOverflow 支持 LaTeX 嵌入。
  • 这是对您要证明的内容的准确陈述吗? “在另一个簇(簇 B)中永远不会存在一个元素,它比所考虑的簇(簇 A)中的任何其他元素更接近正在考虑的簇(簇 A)中的某个元素。也就是说,之间的最小距离簇 A 中的元素到簇 A 中的所有其他元素的距离总是小于簇 A 中的元素到簇 B 中任何元素的最小距离"
  • 我很确定你的猜想是不正确的。特别是,这可能意味着单链接和完整链接总是产生相同的结果,但它们不会。

标签: algorithm machine-learning cluster-analysis hierarchical-clustering


【解决方案1】:

我不确定你的猜想是否正确。由于完全链接聚类的性质,每次聚合两个聚类时,您这样做是因为这两个聚类之间相距 最远 的两个元素彼此之间的距离仍然比距离任何其他集群最远的元素。

你要证明的是

“在另一个簇(簇 B)中永远不会存在一个元素,它比正在考虑的簇(簇 A)中的任何其他元素更接近正在考虑的簇(簇 A)中的某个元素。也就是说,簇 A 中的一个元素到簇 A 中所有其他元素的最小距离总是小于簇 A 中的一个元素到簇 B 中任何元素的最小距离"

但是,由于完全链接聚类合并两个聚类 A 和 B 后,聚类 C 中仍然可能存在一个元素,它比聚类 AB 中的任何其他元素更接近聚类 AB 中的元素,因为完全链接仅关注最大距离。

反例:

A--1--B--3--C--2.5--D--2--E

如何解读示例:

  • 观测值 A、B、C、D 和 E 排列在一条直线上。
  • 观测 A 距离观测 B 1 个单位
  • 观测 B 距离观测 C 3 个单位
  • 观测点 C 距离观测点 D 2.5 个单位
  • 观测点 D 距离观测点 E 2 个单位

让我们执行层次聚类:

  1. 首先 A 和 B 合并,因为距离为 1:

新图片:

AB--4--C--2.5--D--2--E

  • 聚类 AB 距离观测 C 4 个单位(因为 A 距离 C 4 个单位,由于完全链接聚类),距离 D 2.5 个单位,距离 E 2 个单位

    1. 接下来,D和E合并,因为距离是2

新图片

AB--4--C--4.5--DE

  • 聚类 AB 距离观测 C 4 个单位(如前所述),距离聚类 DE 4.5 个单位,因为 C 距离 E 4.5 个单位,因为完全连锁聚类。

    1. 接下来,C 需要合并到 AB,因为它的距离是 4,而它到 DE 的距离是 4.5:

ABC--8.5--德文

  • 集群 ABC 与 DE 相差 8.5 个单位,因为 A 与 E 相差 8.5 个单位。

但是,在这一点上,我们已经推翻了您的猜想。元素 C 是 B 的 3 个单元和 A 的 4 个单元(参见原始图表)。然而,元素 C 距离元素 D 仅 2.5 个单位,而元素 D 在另一个簇内。

【讨论】:

    猜你喜欢
    • 2011-12-11
    • 2012-08-06
    • 2013-07-03
    • 2015-12-14
    • 1970-01-01
    • 2011-03-27
    • 2014-05-20
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多