【发布时间】:2014-11-10 11:44:30
【问题描述】:
数据库中的类似问题似乎比我的示例复杂得多。我想在一条线上聚集 100 个点。组数无关;点的接近程度更重要。
处理这个分组问题的术语、方法或算法是什么? K-means、汉明距离、层次凝聚、团还是完全连锁??
为了澄清起见,我已将两个示例减少到最低限度:
简单示例:
设置 A = {600, 610, 620, 630},其元素之间的差异集是 diff_A = {10, 20, 30, 10, 20, 10}。然后我可以按如下方式分组:{10、10、10}、{20、20} 和 {30}。完成。
有问题的例子:
设置 B = {600, 609, 619, 630},差异集是 diff_B = {9, 10, 11, 19, 21, 30}。我尝试以 1 的容差进行分组,即 1(或更小)的差异“足够相似”可以进行分组,但我遇到了一个悖论:{9, 10} AND/OR {10, 11}, {19} 、{21} 和 {30}。
问题:
9 和 10 足够接近,10 和 11 足够接近,但 9 和 11 不是,那么我应该如何处理这些重叠的组?也许这个小例子是对称的,所以无法解决?
【问题讨论】:
标签: set grouping cluster-analysis similarity difference