【机器学习】——分类算法小结

一、分类算法简介

【机器学习】——分类算法小结

（1）决策树
决策树是用于分类和预测的主要技术之一，决策树学习是以实例为基础的归纳学习算法，它着眼于从一组无次序、无规则的实例中推理出以决策树表示的分类规则。构造决策树的目的是找出属性和类别间的关系，用它来预测将来未知类别的记录的类别。它采用自顶向下的递归方式，在决策树的内部节点进行属性的比较，并根据不同属性值判断从该节点向下的分支，在决策树的叶节点得到结论。主要的决策树算法有ID3、C4.5（C5.0）、CART、PUBLIC、SLIQ和SPRINT算法等。它们在选择测试属性采用的技术、生成的决策树的结构、剪枝的方法以及时刻，能否处理大数据集等方面都有各自的不同之处。
  （2）贝叶斯
贝叶斯（Bayes）分类算法是一类利用概率统计知识进行分类的算法，如朴素贝叶斯（Naive Bayes）算法。这些算法主要利用Bayes定理来预测一个未知类别的样本属于各个类别的可能性，选择其中可能性最大的一个类别作为该样本的最终类别。由于贝叶斯定理的成立本身需要一个很强的条件独立性假设前提，而此假设在实际情况中经常是不成立的，因而其分类准确性就会下降。为此就出现了许多降低独立性假设的贝叶斯分类算法，如TAN（Tree Augmented Na?ve Bayes)算法，它是在贝叶斯网络结构的基础上增加属性对之间的关联来实现的。
  （3）人工神经网络
人工神经网络（Artificial Neural Networks，ANN）是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。在这种模型中，大量的节点（或称”神经元”，或”单元”）之间相互联接构成网络，即”神经网络”，以达到处理信息的目的。神经网络通常需要进行训练，训练的过程就是网络进行学习的过程。训练改变了网络节点的连接权的值使其具有分类的功能，经过训练的网络就可用于对象的识别。目前，神经网络已有上百种不同的模型，常见的有BP网络、径向基RBF网络、Hopfield网络、随机神经网络（Boltzmann机）、竞争神经网络（Hamming网络，自组织映射网络）等。但是当前的神经网络仍普遍存在收敛速度慢、计算量大、训练时间长和不可解释等缺点。
  （4）k-近邻
k-近邻(kNN，k-Nearest Neighbors)算法是一种基于实例的分类方法。该方法就是找出与未知样本x距离最近的k个训练样本，看这k个样本中多数属于哪一类，就把x归为那一类。k-近邻方法是一种懒惰学习方法，它存放样本，直到需要分类时才进行分类，如果样本集比较复杂，可能会导致很大的计算开销，因此无法应用到实时性很强的场合。
  （5）支持向量机
支持向量机（SVM，Support Vector Machine）是Vapnik根据统计学习理论提出的一种新的学习方法，它的最大特点是根据结构风险最小化准则，以最大化分类间隔构造最优分类超平面来提高学习机的泛化能力，较好地解决了非线性、高维数、局部极小点等问题。对于分类问题，支持向量机算法根据区域中的样本计算该区域的决策曲面，由此确定该区域中未知样本的类别。
（6）基于关联规则的分类
关联规则挖掘是数据挖掘中一个重要的研究领域。近年来，对于如何将关联规则挖掘用于分类问题，学者们进行了广泛的研究。关联分类方法挖掘形如condset→C的规则，其中condset是项(或属性-值对)的集合，而C是类标号，这种形式的规则称为类关联规则（class association rules，CARS）。关联分类方法一般由两步组成：第一步用关联规则挖掘算法从训练数据集中挖掘出所有满足指定支持度和置信度的类关联规则；第二步使用启发式方法从挖掘出的类关联规则中挑选出一组高质量的规则用于分类。属于关联分类的算法主要包括CBA ，ADT，CMAR等。
（7）集成学习（Ensemble Learning）
实际应用的复杂性和数据的多样性往往使得单一的分类方法不够有效。因此，学者们对多种分类方法的融合即集成学习进行了广泛的研究。集成学习已成为国际机器学习界的研究热点，并被称为当前机器学习四个主要研究方向之一。
集成学习是一种机器学习范式，它试图通过连续调用单个的学习算法，获得不同的基学习器，然后根据规则组合这些学习器来解决同一个问题，可以显著的提高学习系统的泛化能力。组合多个基学习器主要采用（加权）投票的方法，常见的算法有装袋（Bagging），提升/推进（Boosting）等。集成学习由于采用了投票平均的方法组合多个分类器，所以有可能减少单个分类器的误差，获得对问题空间模型更加准确的表示，从而提高分类器的分类准确度。

二、分类算法优缺点汇总

算法类别	优点	缺点	应用领域
决策树	1、决策树易于理解和解释，可以可视化分析，容易提取出规则。 2、可以同时处理标称型和数值型数据。 3、测试数据集时，运行速度比较快。 4、决策树可以很好的扩展到大型数据库中，同时它的大小独立于数据库大小。	1、对缺失数据处理比较困难。 2、容易出现过拟合问题。 3、忽略数据集中属性的相互关联。 4、ID3算法计算信息增益时结果偏向数值比较多的特征。	企业管理实践，企业投资决策，由于决策树很好的分析能力，在决策过程应用较多。
KNN算法	1、KNN是一种在线技术，新数据可以直接加入数据集而不必进行重新训练 2、KNN理论简单，容易实现	1、对于样本容量大的数据集计算量比较大。 2、样本不平衡时，预测偏差比较大。如：某一类的样本比较少，而其它类样本比较多。 3、KNN每一次分类都会重新进行一次全局运算。 4、k值大小的选择。	文本分类、模式识别、聚类分析，多分类领域
SVM	1、解决小样本下机器学习问题。 2、解决非线性问题。 3、无局部极小值问题。（相对于神经网络等算法） 4、可以很好的处理高维数据集。 5、泛化能力比较强。	1、对于核函数的高维映射解释力不强，尤其是径向基函数。 2、对缺失数据敏感。	文本分类、图像识别、主要二分类领域
AdaBoost	1、很好的利用了弱分类器进行级联。 2、可以将不同的分类算法作为弱分类器。 3、AdaBoost具有很高的精度。 4、相对于bagging算法和Random Forest算法，AdaBoost充分考虑的每个分类器的权重。	1、AdaBoost迭代次数也就是弱分类器数目不太好设定，可以使用交叉验证来进行确定。 2、数据不平衡导致分类精度下降。 3、训练比较耗时，每次重新选择当前分类器最好切分点。	模式识别、计算机视觉领域，用于二分类和多分类场景
朴素贝叶斯	1、对大数量训练和查询时具有较高的速度。即使使用超大规模的训练集，针对每个项目通常也只会有相对较少的特征数，并且对项目的训练和分类也仅仅是特征概率的数学运算而已。 2、支持增量式运算。即可以实时的对新增的样本进行训练。 3、朴素贝叶斯对结果解释容易理解。	1、由于使用了样本属性独立性的假设，所以如果样本属性有关联时其效果不好。	文本分类、欺诈检测中使用较多
Logistic回归	1、计算代价不高，易于理解和实现	1、容易产生欠拟合。 2、分类精度不高。	用于二分类领域，可以得出概率值，适用于根据分类概率排名的领域，如搜索排名等。Logistic回归的扩展softmax可以应用于多分类领域，如手写字识别等。
人工神经网络	1、分类准确度高，学习能力极强。 2、对噪声数据鲁棒性和容错性较强。 3、有联想能力，能逼近任意非线性关系。	1、神经网络参数较多，权值和阈值。 2、黑盒过程，不能观察中间结果。 3、学习过程比较长，有可能陷入局部极小值。	目前深度神经网络已经应用与计算机视觉，自然语言处理，语音识别等领域并取得很好的效果。

【参考资料】

参考资料1：https://blog.csdn.net/chl033/article/details/5204220

参考资料2：https://blog.csdn.net/mach_learn/article/details/39501849