机器学习基础入门概述~

机器学习概述

机器学习的定义
机器学习、人工智能和深度学习的关系
机器学习基本概念和常用的应用场景
机器学习、数据分析、数据挖掘的区别与联系
机器学习分类
机器学习数据处理流程

机器学习的定义

Machine Learing(ML) is a scientific discipline that deals with the construction and study of algorithms that can learn from data.
机器学习是一门从数据中研究算法的科学学科
根据已有的数据，进行算法选择，并基于算法和数据构建模型，最终对未来进行预测

机器学习理性认识
机器学习基础入门概述~
通过历史数据进行建模，通过建模后的公式进行预测处理（理论上，数据越多，预测也就越准）

输入：x属于X（属性值）
输出：y属于Y（目标值）
获得一个目标的函数（traget function）
输入数据： $D = {(x_1,y_1),(x_2,y_2),.....(x_n,y_n)}$
最终具有性能的假设公式（学习得到的最终公式）

输入x的同时，也输入y，这也就是监督学习。

ax + c= y
(x1,y1)
(x2,y2)
机器学习的主要目的就是求出a和c的值。也就是确定函数，然后通过函数进行预测。
不论是什么算法（模型），构成的方程式是不同的。主要的是求出问题，然后如何进行预测。

五部曲

数据选取
选择算法
学习确定参数
数据训练
预测

从数据中获得一个假设的函数g，使其非常接近目标函数f的效果。

如果数据参加如果出现偏差，所得到的参数就有偏差。
如果算法选择的不是很好，也是有问题的
目标函数f未知（无法得到）
假设函数g类似函数f，但是可能和函数f不同
机器学习中是无法找到一个完美的函数f

机器学习概念

A program can be said to learn from experience E with respect to some class of tasks T and performance measure P,If its performance at tasks in T, as measured by P, imporves with experienc E.
对于某个给定的任务T，在合理的性能度量方案p的前提下，某计算机程序可以自主学习任务T的经验E；随着提供合适、优质、大量的经验E，该程序对于任务T的性能逐步提高

重要的机器学习对象：

任务Task T
一个或多个、经验Experience E
度量性能Performance P

随着任务的不断执行，经验的累积会带来计算机性能的提升
机器学习基础入门概述~

算法（T）：根据业务需要和数据特征选择的相关算法，也就是一个数学公式
模型（E）：基于数据和算法构建出来的模型
评估/测试（P）：对模型进行评估的策略

机器学习概念性含义

机器学习是人工智能的一个分支。我们使用计算机设计一个系统，使它能根据提供的训练数据按照一定的方式进行学习
随着训练次数的增加，该系统可以在性能上不断学习和改进
通过参数优化的学习模型，能够用于预测相关问题的输出

不论是什么数据在机器学习中都是需要转换的（比如上图中的向量）

机器学习概念-对算法的数据的常规描述

拟合：构建的算法符合给定数据的特征（给定数据）
$x^{i}$ :表示第i个样本的x向量
$x_i$ :x向量的第i维度的值
鲁棒性：也就是健壮性、稳健性、强健性,是系统的健壮性；当存在异常数据的时候，算法也会拟合数据（系统很好）
过拟合：算法太符合样本数据的特征，对于实际生产中的数据特征无法拟合（数据过于理想化）
欠拟合：算法不太符合样本的数据特征（算法很差，模型很差）

机器学习之常见应用框架

sciket-learn(Python) http://scikit-learn.org/stable/【用的比较多，机器学习主流】
Mahout(Hadoop生态圈基于MapReduce) http://mahout.apache.org/【算法比较旧，不怎么更新了】
Spark Mllibhttp://spark.apache.org/【基于分布式，有限算法】

sciket-learn主要算法
机器学习基础入门概述~

分类（classification）：用的比较多（分词）【注：逻辑回归就是一个分类】（离散）
回归（regression）：比分类更加的细致（连续）
聚类（clustering）：监督学习
降维（dimensionality reduction）：提高计算速度

深度学习90%使用逻辑回归（一个比较大并且重要的算法）

机器学习之商业场景

个性化推荐：个性化化指的是根据各种因素来改变用户体验和呈现给用户内容，这些因素可能包含用户的行为数据和外部因素；推荐常指系统向用户呈现一个用户可能感兴趣的物品列表。
精准营销：从用户群众中找出特定的要求的营销对象。
客户细分：试图将用户群体分为不同的组，根据给定的用户特征进行客户分组。
预测建模及分析：根据已有的数据进行建模，并使用得到的模型预测未来。

机器学习、数据分析、数据挖掘区别与联系

数据分析：数据分析是指用适当的统计分析方法对收集的大量数据进行分析，并提取有用的信息，以及形成结论，从而对数据进行详细的研究和概括过程。在实际工作中，数据分析可帮助人们做出判断，数据分析一般而言可以分为统计分析，探索性数据分析和验证性数据分析三大类。（BI报表）
数据挖掘：一般指从大量的数据中通过算法搜素隐藏于其中的信息的过程，通常通过统计、检索、机器学习、模式匹配等诸多方法来实现这个过程。（挖矿）
机器学习：是数据分析和数据挖掘的一种比较常用，比较好的手段。（炼丹）

机器学习分为：有监督学习、无监督学习、半监督学习

有监督学习

判别式模型（DIscrimination Model）：直接对条件概率p(y|x)进行建模，常见判别模型有：线性回归、决策树（规则引擎）、支持向量机SVM（划时代的算法、俄罗斯数学家）、k近邻（KNN）、神经网络等（看预测过程，输入样本x的条件下，得出y，并得到相应的概率）
生成式模型（Generative Model）：对联合分布概率p(x，y)进行建模，常见生成式模型有：隐马尔可夫模型HMM、朴素贝叶斯模型、高斯混合模型GMM、LDA（文本分类模型）等。
生成式模型更普遍：判别式模型更直接、目标性更强
生成式模型关注数据是如何产生的，寻找的是数据分布模型
判别模型关注的数据的差异性，寻找的是分类面
由生成式模型可以产生判别式模式，但是由判别式模型没法形成生成式模型

无监督学习

无监督学习试图学习或提取数据背后的数据特征，或者从数据中抽取重要的特征信息，常见的算法有聚类、降维、文本处理（特征抽取）等
无监督学习一般是作为有监督学习的前期数据处理，功能是从原始数据中抽取出必要的标签信息

半监督学习

主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。
半监督学习对于减少标注代价，提高机器学习性能具有非常重大的实际意义。
SSL的成立依赖于模型假设，主要分为三大类：平滑假设、聚类假设、流行假设；其中流行假设更具有普遍性。
SSL类型的算法主要分为四大类：半监督分类、半监督回归、半监督聚类、半监督降维。
缺点：抗干扰能力弱，仅适合实验室环境，其实现意义还没有体现出来；未来的发展主要是聚焦于新模型假设的生产。

自监督学习：没有标记样本

有监督用的比较多，无监督的准确率比较低，用的少
无监督学习的优点是不需要人对其进行标注样本（发展就要发展无监督学习）
半监督学习大部分使用深度学习。
样本量少，优先选择半监督

机器学习分类

分类：通过分类模型，将样本数据集中的样本映射到某个给定的类别中
聚类：通过聚类模型，将样本数据集中的样本分为几个类别，属于同一类别的样本相似性比较大
回归：反映了样本数据集中样本的属性值得特性，通过函数表达样本映射的关系来发现属性值之间的依赖关系
关联规则：获取隐藏在数据项之间的关联或相互关系，即可以根据一个数据项的出现推导出其他数据项的出现频率（韩家炜）

机器学习算法Top10

算法	算法描述
C4.5	分类决策树算法,决策树的核心算法,ID3算法的改进算法（淘汰了）
CART	分类与回归树(Classification and Regression Tree)
KNN	K近邻分类算法;如果一个样本在特征空间中的k个最相似的样本中大多数属于某一个类别,name该样本也属于该类别
NaiveBayes	贝叶斯分类模型;该模型比较适合属性相关性较小的时候,如果属性相关性比较大的时候,决策树模型比贝叶斯分类模型效果好(原因:贝叶斯模型假设属性之间是互不影响的)
SVM	支持向量机,一种有监督学习的统计学习方法,广泛应用于统计分类和回归分析中
EM	最大期望算法,常用于机器学习和计算机视觉中的数据集聚领域
Apriori	关联规则挖掘算法
K-Means	聚类算法,功能是将n个对象根据属性特征分为k和分割(k<n),属于无监督学习
PageRank	Google搜索重要算法之一（Google自己也取消了）
AdaBoost	迭代算法;利用多个分类器进行数据分类（2014年最好的机器学习算法）

机器学习、人工智能和深度学习的关系

深度学习是机器学习的子类
深度学习是基于传统的神经网络算法发展到多隐层的一种算法体现
机器学习是人工智能的一个子类

机器学习与智慧

计算：云计算
灵敏：事件驱动
推理：专家系统
知识：数据仓库
检索：搜素引擎
智慧：机器学习