Jaccard相似系数
Jaccard相似系数(Jaccard similarity coefficient)用于比较有限样本集之间的相似性与差异性。Jaccard系数值越大,样本相似度越高。
定义:给定两个集合A,B,Jaccard系数定义为A与B的交集大小与A与B并集大小的比值,具体如下:
当集合A,B全部为空时,J(A,B)= 1。
与Jaccard系数相关的指标是Jaccard距离,用于描述集合之间的不相似度,Jaccard聚类越大,样本相似度就越低,定义如下:
其中对参差(symmetric difference)
需要注意的一点是:J(A,B)∈[0,1]
非对称二元属性的相似性
在数据挖掘领域,常常需要比较两个具有布尔值属性的对象之间的距离,Jaccard距离就是常用的一种方法。给定两个比较对象A,B。A, B 均有n个二元属性,即每个属性取值为{0,1}。定义如下4个统计量:
:A,B属性值同时为0的属性个数;
:A属性值为0且B属性值为1的属性个数;
:A属性值为1且B属性值为0的属性个数;
:A,B属性值同时为1的属性个数;
如下图数示: