机器学习7 - 算法进阶2

知识点

  1. 距离度量。
    • Manhattan: d i s t ( x , y ) = ∑ i ∣ x i − y i ∣ dist(x,y) = \sum_{i}|x_{i}-y_{i}| dist(x,y)=ixiyi
    • 欧式距离Euclidean: d i s t ( x , y ) = ∑ i ( x i − y i ) 2 dist(x,y) = \sqrt{\sum_{i}(x_{i}-y_{i})^2} dist(x,y)=i(xiyi)2
    • Minkowski: d i s t ( x , y ) = ( ∑ i ∣ x i − y i ) p ) 1 p dist(x,y) = (\sum_{i}|x_{i}-y_{i})^{p})^{\frac{1}{p}} dist(x,y)=(ixiyi)p)p1
    • 杰卡德相似系数(Jaccard): J ( A , B ) = ∣ A ∩ B ∣ ∣ A ∪ B ∣ J(A,B) = \frac{|A\cap B|}{|A\cup B|} J(A,B)=ABAB
    • 余弦相似度(cosine similarity): c o s ( θ ) = a ⋅ b ∣ a ∣ ⋅ ∣ b ∣ cos(\theta) = \frac{\bold{a}\cdot\bold{b}}{|\bold{a}|\cdot|\bold{b}|} cos(θ)=abab
    • Pearson相关系数: ρ x y = C o v ( x , y ) σ x σ y \rho_{xy} = \frac{Cov(x,y)}{\sigma_{x}\sigma_{y}} ρxy=σxσyCov(x,y)
    • 相对熵(KL散度): D ( p ∣ ∣ q ) = ∑ x p ( x ) l o g p ( x ) q ( x ) = E p ( x ) l o g p ( x ) q ( x ) D(p||q) = \sum_{x}p(x)log\frac{p(x)}{q(x)} = E_{p(x)}log\frac{p(x)}{q(x)} D(pq)=xp(x)logq(x)p(x)=Ep(x)logq(x)p(x)
    • Hellinger距离: D α ( p ∣ ∣ q ) = 2 1 − α 2 ( 1 − ∫ p ( x ) 1 + α 2 q ( x ) 1 − α 2 d x ) D_{\alpha}(p||q) = \frac{2}{1-\alpha^2}(1-\int p(x)^{\frac{1+\alpha}{2}}q(x)^{\frac{1-\alpha}{2}}dx) Dα(pq)=1α22(1p(x)21+αq(x)21αdx)
      Person相关系数即x,y坐标平移到原点后的夹角余弦。Hellinger当 α \alpha α为01时,退化为 D ( p ∣ ∣ q ) , D ( q ∣ ∣ p ) D(p||q),D(q||p) D(pq),D(qp)
  2. K-means聚类
    • 选定初始中心(可以使用elbow方法来选取中心数)
    • 对于每个样本,将其标记为距离类别中心最近的类别
    • 将每个中心更新为隶属该类别的所有样本的均值
    • 重复迭代直到满足一定的迭代步数或者MSE或者簇中心变化率。
      需要做feature scaling。
  3. 聚类的衡量指标:
    • 均一性:一个簇只含有一个类别的样本,则满足均一性
      p = 1 k ∑ i = 1 k N ( C i = = K i ) N ( K i ) p = \frac{1}{k}\sum_{i=1}^{k}\frac{N(C_{i}==K_{i})}{N(K_{i})} p=k1i=1kN(Ki)N(Ci==Ki)
    • 完整性:同类别样本被归类到相同簇中,则满足完整性
      r = 1 k ∑ i = 1 n N ( C i = = K i ) N ( C i ) r = \frac{1}{k}\sum_{i=1}^{n}\frac{N(C_{i}==K_{i})}{N(C_{i})} r=k1i=1nN(Ci)N(Ci==Ki)
    • V-measure:均一性和完整性的加权平均
      ν β = ( 1 + β ) ⋅ p r β ⋅ p + r \nu_{\beta} = \frac{(1+\beta)\cdot pr}{\beta\cdot p+r} νβ=βp+r(1+β)pr
    • 调整兰德系数(ARI, Adjusted Rnd ARI),范围为[-1,1],越高越好。
      机器学习7 - 算法进阶2
    • 调整互信息(AMI,Adjusted Mutual Information),越高越好。
      机器学习7 - 算法进阶2
    • 轮廓系数:
      • 簇内不相似度:计算样本i到同簇其它样本的平均距离为ai;ai越小,表示样本i越应该被聚类到该簇,簇C中的所有样本的ai的均值被称为簇C的簇不相似度。
      • 簇间不相似度:计算样本i到其它簇Cj的所有样本的平均距离bij,i=min{bi1,bi2,…,bik};bi越大,表示样本i越不属于其它簇。
      • 轮廓系数: s i s_{i} si值越接近1表示样本i聚类越合理,越接近-1,表示样本i应该分类到另外的簇中,近似为0,表示样本i应该在边界上;所有样本的si的均值被成为聚类结果的轮廓系数。
        s ( i ) = b ( i ) − a ( i ) m a x { a ( i ) , b ( i ) } s ( i ) = { 1 − a ( i ) b ( i ) a ( i ) < b ( i ) 0 a ( i ) = b ( i ) a ( i ) b ( i ) − 1 a ( i ) > b ( i ) s(i) = \frac{b(i)-a(i)}{max\{a(i),b(i)\}} \quad s(i) = \begin{cases} 1-\frac{a(i)}{b(i)} \quad a(i)<b(i)\\ 0 \quad a(i) = b(i) \\ \frac{a(i)}{b(i)}-1 \quad a(i)>b(i) \end{cases} s(i)=max{a(i),b(i)}b(i)a(i)s(i)=1b(i)a(i)a(i)<b(i)0a(i)=b(i)b(i)a(i)1a(i)>b(i)

除了轮廓系数,都需要标签来计算。

相关文章: