【发布时间】:2018-04-03 10:30:16
【问题描述】:
我分别有来自集合 A 和 B 的 n 和 m 个二进制向量(长度为 1500)。 我需要一个度量来说明所有这些 n 个向量和 m 个向量有多相似(一种距离度量)。 输出应该是 total_distance_of_n_vectors 和 total_distance_of_m_vectors。 如果total_distance_of_n_vectors > total_distance_of_m_vectors,这意味着Set B比Set A有更多相似的向量。
我应该使用哪个指标?我想到了 Jaccard 相似性。但我不能把它放在这种情况下。我应该找到每个向量之间的距离以找到总距离还是其他什么?
【问题讨论】:
-
这太抽象了,取决于你想要的功能。如果您想要严格衡量相似性,一种方法可能是找出所有 m 个向量之间共有的值的数量。
-
您是否考虑过每对向量之间的聚合/平均Hamming distance?或成对的 Jaccard 相似性。或者您可以将向量作为坐标,计算质心并采用欧几里得距离。最佳选择取决于您对哪种相似性感兴趣。
标签: python machine-learning similarity cosine-similarity