【问题标题】:What is a metric to measure the similarity of any two sets衡量任意两组相似度的指标是什么
【发布时间】:2017-12-20 02:54:14
【问题描述】:

我寻求一个函数,它可以仅根据它们的元素为任意两个集合分配一个实数。我需要它对集合的交集范围敏感,但如果集合有无关的项目,则要惩罚。换句话说,我想在同一个指标中同时计算召回率和准确率。

【问题讨论】:

  • 可能类似于crc32(json.stringify(data))
  • 这个问题也可以更好地问:交叉验证或人工智能,它们是 Stackoverflow 的姐妹网站。
  • 我投票结束这个问题,因为它属于 datascience.stackexchange.com
  • 您对另一个姐妹网站的看法可能是正确的。然而,@Martin Thoma 为我的问题提供了完美的答案。

标签: machine-learning set similarity metrics precision-recall


【解决方案1】:

你要找的是Jaccard index:

J(A, B) := |A ∩ B| / |A ∪ B|

因此它计算两个集合共有多少元素,然后除以唯一元素的数量。

如果两个集合相同,J(A, B) 最大为 1。如果它们不共享任何元素,则最小值为零。您可能需要为两个集合都为空的情况分配一个编号。

【讨论】:

  • 太好了。我检查了它,这可以解决问题。非常感谢
  • @LewisEigen 如果它解决了你的问题,你应该接受我的回答。如果您认为我的回答写得很好,您应该点赞。
  • 我是这个网站的新手,不知道“upvoting”,但我现在点击了检查,所以它变成了绿色并点击了向上箭头,尽管数字没有改变。它说了一些关于没有 15 个声望点的情况下不计算选票的内容。我投了赞成票吗?我真的很感激这个答案,这对我来说是完美的。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2020-07-20
  • 1970-01-01
  • 2017-07-21
  • 2022-12-13
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多