机器学习入门总览（上）

什么是机器学习？

机器学习是一门多学科交叉专业，涵盖概率论知识，统计学知识，近似理论知识和复杂算法知识，使用计算机作为工具并致力于真实实时的模拟人类学习方式，并将现有内容进行知识结构划分来有效提高学习效率。

简单来说，就是让电脑模拟人的学习行为，通过主动的输入大量数据，然后在特定的算法支持下产出一个"学习"后的结果。

线性回归及非线性回归

线性回归是机器学习的基础，其实就是一元一次方程。难度在于，这个一元一次方程的斜率和截距要通过最小二乘法和梯度下降法求出。线性回归可以解决一些特征少的问题，比如:房价和房屋面积的关系，可以适当的增加一些特征量，像房屋地段，房屋年龄等。机器学习入门总览（上）
与线性回归相对应的是非线性回归，非线性回归的关键也是梯度下降。
梯度下降：数据顺着梯度最大的方向，也就是函数导数最大的放下下降，使其快速的接近结果。非线性回归就是缩小版的神经网络。

逻辑回归

逻辑回归是应用非常广泛的一个分类机器学习算法，它将数据拟合到一个logit函数(或者叫做logistic函数)中，从而能够完成对事件发生的概率进行预测。

逻辑回归的由来可以追溯到线性回归，线性回归可以对连续值的结果进行预测，但是在实际生活中更多的是是否的问题。比如，这个人是否生病了？这道菜是否好吃？这部电影是否精彩等等。所以这涉及到一个分类的问题，分成两类。而线性回归因为很多时候有一些特殊值的情况所以无法很好地区分，或者说划定边界，所以要用到逻辑回归。逻辑回归所用到的sigmoid函数能够很好地判定边界，把所有的数据分为两个不同的类，举两个例子：
机器学习入门总览（上）

KNN算法

kNN，即k-NearestNeighbor算法，是一种最简单的分类算法，拿这个当机器学习、数据挖掘的入门实例是很合适的。KNN算法和逻辑回归的应用场景很像，都是分类的问题。
原理和目的：
假设有一种数据，每一条有两个特征值，这些数据总共有两大类，例如：
[ [1 , 1.1] , [ 1 , 1 ] , [0 , 0 ] , [0 , 0.1] ] 这四个数据（训练数据），种类分别为 [‘A’ , ‘A’ , ‘B’ ,‘B’ ]。
现在给出一条数据X=[1.1 , 1.1]，需要判断这条数据属于A还是B，这时候就可以用kNN来判断。当然现实中每个数据可能有很多个特征，总共也有很多分类，这只是一个简单的举例。

原理也非常简单，将上述训练数据放到坐标轴中，然后计算X到每个训练数据的距离，从近到远做个排序，选取其中的前N条，判断其中是属于A类的数据多还是B类的多，如果属于A类的多，那可以认为X属于A；反之亦然。
python实现：
机器学习入门总览（上）

决策树

决策树是一种常见的机器学习算法，决策树，简单地说就是一颗树，其中每个分支节点代表多个备选方案之间的选择，每个叶节点代表一个决策。它是一种受监督的学习算法(带有预定义的目标变量)，主要用于分类问题和对持续性输入输出变量归类的工作。它是归纳推理中应用最广泛、最实用的方法之一。(归纳推理是从具体例子中得出一般结论的过程。)
决策树从给定的例子中学习和训练自己，并预测看不见的情况。
机器学习入门总览（上）
决策树的图形化示例如下所示：

决策树算法：ID3
ID3是Iterative Dichotomizer 3的简称，此算法是由Ross Quinlan发明的，他通过对一组固定的示例构建决策树，然后将结果树用于对未来样本进行分类。其基本思想是通过使用一个自上而下的、贪婪算法来构造决策树，在每个树节点上测试各种属性。