1.阅读建议
2.聚类
3.层次聚类发展
4.层次聚类的分析
5.BIRCH
关键词:CF树BIRCH(英文全称为Balanced Iterative Reducing and Clustering using Hierarchies)(Zhang,et al.,1996)[3]的基本思想是采用新的数据结构即CF(聚类特征)树来存储这些数据,然后对CF树进行操作。这些CF树的非叶子节点不仅提炼了原始数据的重要信息用以作为聚类的依据,而且提炼的过程减少所需存储。
BIRCH核心思想在于创立并运用了CF(cluster feature)和CF树概念。
BIRCH的主要优点有两方面。一方面能够应对和处理大规模数据集。 BIRCH相对于全局搜索而言采用局部搜索,降低了数据处理的工作量。另一方面,这种算法将数据点区分为簇点和离群点,并消除离群点。此外,BIRCH只扫描数据集一次,效率高,时间复杂度为线性O(n)。
BIRCH的缺点也很明显。数据的输入顺序调整则影响效果。只适用于凸区域这种部分应用情形,对非球状的簇聚类效果不好。高维数据的聚类效果差,不理想。
6.CURE
关键词:代表点CURE(英文全称:Clustering Using Representatives)(Guha et al.,1998)是创新地采用固定数目的代表点来代表所在簇进行聚类的一种HC算法。
绝大多数聚类算法擅长处理球形(凸区域)与相似大小的聚类,而对任意形状的聚类无能为力。如果数据中存在孤立点,是采用新的规则合并入已有簇中还是直接舍弃或忽略孤立点,无论何种规则都是要保证聚类的质量和效率,但大多数算法并不能够采用有效的处理方式。CURE算法的提出较好地解决了这些问题。
7.ROCK
关键词:代表点
8.Chameleon
关键词:代表点