【发布时间】:2011-02-11 04:01:04
【问题描述】:
我有一组 2D 坐标集(每组有 100K-500K 点),我正在寻找最有效的方法来测量一组坐标与另一组的相似度。我知道常用方法:余弦、Jaccard/Tanimoto 等。但是我希望对任何快速/有效的方法来衡量相似度,尤其是那些可以按相似度聚类的方法提供一些建议。
编辑 1:图像显示了我需要做的事情。我需要按照形状/方向等对所有红色、蓝色和绿色进行聚类。
【问题讨论】:
-
您能否进一步定义相似性?据我了解,您有 n 组 m 个点(其中 m 大约为 100k)。你会用什么标准说任何 2 组是相似的?是它们共享相同点的大子集(即相同的 x,y 坐标)还是两组中的坐标集紧密重叠(即描述几何相似的二维对象的不同坐标)。跨度>
-
谢谢,我更多地关注后者,即它们描述了类似的 2D 对象。让我稍微解释一下我的用例,我有多个快速变化的散点图,并希望通过相似性对它们进行聚类。 HTH 和 TIA
-
互相关有帮助吗?但是我很困惑如何使它大小不变。我可以通过坐标数进行归一化吗?有什么想法吗?
-
为什么绿色(或红色)相似?它们是彼此的镜像。考虑到这一点会增加您选择的任何算法的复杂性。
标签: algorithm 2d coordinates similarity