kmeans算法学习2

kmeans算法：给定样本集D={x1,x2,x3,…,xm}，针对聚类所得簇划分为k个簇，计算每个样本和簇之间的最小化平方误差。
算法过程：选取k个样本作为初始化均值向量，计算每个样本与当前均值向量的距离，选区当前样本与当前均值向量最近的哪一个，把当前样本归于这个均值向量，对所有样本都考察一遍以后，所有样本都归于某一个均值向量当中，然后求出新的均值向量。再计算所有样本与新的均值向量之间的距离，重复以上步骤，直到达到最大运行轮数或者最小调整幅度。

LVQ算法（学习向量量化）：这个算是有监督的学习，每个样本有n和特征，也有对应的标记。首先从样本种选出一些样本作为原型向量，且都有预设的类别标记。
计算某个样本x1与原型向量之间的距离，找出与x1距离最近的原型向量，如果x1的标记和原型向量的预设标记一样，那么令原型向量往x1的方向靠拢；若不一样，则远离x1。这样我们的簇就不断移动，直到达到最大迭代轮数。

高斯混合聚类：计算每个样本被归于某个簇的概率，簇划分是由原型对应的后验概率确定。
密度聚类：DBSCAN算法
kmeans算法学习2
领域其实就是某一个半径内，假设半径为5，我们先看P点以半径为5画的圆中包含3个点，而q点以半径为5画7个点 7>5,所以q就叫做核心对象。p不是核心对象。理解就是这么简单，再看看什么叫密度可达，见下图：

O点以半径为5画圆与p点以半径为5画圆有交集，即O点以半径为5的领域内有以P为中心点半径为5的领域内的点，则O密度可达P。O也密度可达q(在边界交点也算)。从O点能密度可达p，也能密度可达q,则p,q叫密度相连。
密度可达：两个集合之间有交集
密度相连：A与B有交集，B与C有交集，但是A与C之间没有直接的交集，A与C可以通过B称为密度相连。
再比如： kmeans算法学习2
q密度可达p1，p1密度可达p，则q密度可达p（间接的也是密度可达）！！！！
这里需要两个参数注意下：r半径，m阈值，即以r为半径内所包含的点，只有大于m阈值的点才能叫核心对象。
以上理解了这些概念，但跟聚类有什么相连，实际上簇就是密度相连的最大的集合。即一个簇就是最大的密度相连的集合。

如果一个点不是核心对象，也就意味着不能密度可达，所以就是噪声点。（通俗理解就是一个点都不能画圆，怎么会有密度可达呢？）

层次聚类：AGNES算法，是一种自底向上的算法，首先把每个样本看作一个初始聚类簇，算法运行的每一步找出距离最近的两个簇进行合并，直到达到预设的聚类簇个数为止。