分类算法 - 爱码网

【分类】就是通过学习得到一个目标函数（通常也称作分类模型，即分类器），借助分类器将未知类别的数据对象映射到某一个给定的类别中。分类和回归都可以用于预测。分类的目标属性（因变量）是离散属性（名词型），而回归的目标属性（因变量）是连续属性（数值型）。分类和聚类的区别在于，分类要求训练集必须给定类别标签，同时构建的分类器可以用于预测，而聚类用于对于未知类别的样本进行训练，发现相似群体，并人工根据群体特征，赋予类别标签

分类算法

分类算法在解决实际问题时经常会把数据拆分为两个数据集：训练数据集、测试数据集。通过数据挖掘算法对训练数据集进行建模，寻找X和Y之间的数学模型，然后通过测试数据集来验证该数学模型的准确率，如果误差能够达控制到一定精度，则认为该模型很好的反映了X和Y的关系，可以用来进行预测和分析。

分类算法

分类：典型案例（变压器故障诊断）

电力变压器是电力系统的重要输变电设备，油中溶解气体分析法是发现和预防变压器故障的有效方法之一。可以利用分类算法对变压器的油色谱检测数据进行分析，以此指导设备的故障诊断并判断设备的状态。以某站主变压器为研究对象，收集其他同型号、同厂家的设备每次故障时对变压器油中溶解气体浓度的测试值作为样本数据。考虑油色谱分析法中的特征气体为氢气（H2）、甲烷（CH4）、乙烷（C2H6）、乙烯（C2H4）、乙炔（C2H2），故障类型分为：正常、低能放电、高能放电、过热。

分类算法

ID3决策树

ID3算法是一种流行的机器学习分类算法，算法的核心是信息熵。ID3算法通过计算每个属性的信息增益，认为信息增益高的属性是好属性，每次划分选择信息增益最高的属性作为划分标准，重复这个过程，直至生成一个好的分类训练样本的决策树。

分类算法

C45+决策树

C4.5算法在ID3算法的基础上演变，相比ID3算法，其计算复杂度更低，计算效率得到了提高。它对于ID3算法的重要改进是使用信息增益率来选择节点属性。C4.5+算法是C4.5算法的修订版，引入Boosting方法，占用的内存资源较少，使用更少的规则集，计算速度比较快，并且准确率更高。

分类算法

CART决策树

CART是一种典型的二叉决策树，CART算法采用一种二分递归分割的技术，与基于信息熵的算法不同，CART算法对每次样本集的划分计算GINI系数。

分类算法

梯度提升树

梯度提升树是一种迭代的决策树算法，该算法由多棵决策树组成。它基于集成学习中Boosting的思想，每次迭代都在减少残差的梯度方向上建立一棵决策树，迭代多少次就生成多少棵决策树。

分类算法

梯度提升树

分类算法

随机森林

随机森林是以决策树为基学习器构建的一种集成算法。随机森林由多棵决策树构成，且森林中的每一棵决策树之间没有关联，模型的最终输出由森林中的每一棵决策树共同决定。对于测试样本，森林中每棵决策树会给出最终类别，最后综合考虑森林内每一棵决策树的输出类别，以投票方式来决定测试样本的类别。

分类算法

朴素贝叶斯

朴素贝叶斯（Naive Bayes ）算法在机器学习中属于简单概率分类器。基本思想是：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。

分类算法

贝叶斯网络

一个贝叶斯网络定义包括一个有向无环图（DAG）和一个条件概率表集合。DAG中每一个节点表示一个随机变量，可以是可直接观测变量或隐藏变量，而有向边表示随机变量间的条件依赖；条件概率表中的每一个元素对应DAG中唯一的节点，存储此节点对于其所有直接前驱节点的联合条件概率。

分类算法

KNN（K近临）

KNN算法，亦称K-近邻算法，是数据挖掘技术中最简单的分类算法之一。所谓K最近邻，就是K个最近的邻居的意思，就是说每个样本都可用它最近的K个邻居来近似推断。该算法的核心思想是：如果一个样本在特征空间中的K个最相邻的样本中的大多数属于某个类别，则该样本也属于这个类别。

分类算法

L1/2稀疏迭代

该算法主要基于正则化的学习框架进行构建，正则项采用L1/2范数，属于稀疏化的学习算法，能够在建模的过程中自动筛选变量或样本，能够极大的提高了模型的准确度和运算效率。

分类算法

线性判别分析（LDA）

线性判别式分析(Linear Discriminant Analysis, LDA)，基本思想是将高维的模式样本投影到最佳鉴别矢量空间，以达到抽取分类信息和压缩特征空间维数的效果，投影后保证模式样本在新的子空间有最大的类间距离和最小的类内距离，即模式在该空间中有最佳的可分离性。

分类算法

逻辑回归（Logistic Regression）

逻辑回归是线性回归所对应的分类方法，基本概念由线性回归推导而出。逻辑回归通过逻辑函数将预测映射到 0 到 1 的区间，因此预测值可被视为某一类别的概率。

分类算法

BP神经网络

BP神经网络算法由输入层、隐藏层和输出层构成，学习过程由信号的正向传播和误差的反向传播两个过程组成，通过多次调整权值，直至网络输出的误差减小到可以接受的程度，或进行事先设定的学习次数。学习得到因变量和自变量之间的一个非线性关系。

分类算法

RBF神经网络

RBF网络，即径向基神经网络，是前馈型网络的一种，其基本思想是对于底维空间不一定线性可分的问题，把它映射到高维空间中，则可能是线性可分的，其在对问题进行转换的同时，也解决了BP网络的局部极小值问题。

分类算法

支撑向量机（SVM）

支持向量机学习的基本思想是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。对线性可分得训练数据集而言，线性可分分离超平面有无穷多个，但是几个间隔最大的分离超平面是唯一的，这样的超平面对未知的新实例也有较好的分类预测能力。

分类算法模型构建与评估

Iris以鸢尾花的特征作为数据来源，常用在分类操作中。该数据集由3种不同类型的鸢尾花的50个样本数据构成。该数据集包含了5个属性特征。

分类算法