【问题标题】:Computing degree of similarity among a group of sets计算一组集合之间的相似度
【发布时间】:2010-01-09 23:09:19
【问题描述】:

假设有 4 个集合:

s1={1,2,3,4};
s2={2,3,4};
s3={2,3,4,5};
s4={1,3,4,5};

有没有标准的度量来表示这组4个集合的相似度?

感谢 Jaccard 方法的建议。然而,它似乎是成对的。 如何计算整组集合的相似度?

【问题讨论】:

  • 这完全取决于你想用你的一组相似性度量做什么。您会将它们与超过 4 组的组进行比较,还是总是 4 组?您是否尝试对多个集合进行分区或聚类?

标签: metrics similarity


【解决方案1】:

成对,您可以计算两组的Jaccard distance。它只是两个集合之间的距离,如果它们是空间中的布尔向量,其中 {1, 2, 3...} 都是单位向量。

【讨论】:

  • +1,可能 (6) Jaccard 系数的平均值是 @Soup 正在寻找的。​​span>
  • 赞同你采取平均主义的想法。
【解决方案2】:

您的问题不是很具体。但我想你的意思是他们之间的“编辑距离”? IE。您需要将 s1 更改多少才能到达 s2?

查看Edit distance 上的维基百科文章。

【讨论】:

    【解决方案3】:

    正如 Tobu 所说,我会使用 Jaccard Index,这只是交集除以集合的并集。

    【讨论】:

      【解决方案4】:

      你可以计算每个集合之间交集的大小

      【讨论】:

        【解决方案5】:

        您可以计算它们之间的Euclidean distance,并从中构建dendrogram 以可视化相似性。

        【讨论】:

          猜你喜欢
          • 1970-01-01
          • 2021-11-18
          • 2017-12-08
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 2017-08-22
          • 2012-03-11
          • 2017-03-19
          相关资源
          最近更新 更多