数据挖掘笔记1

分类与预测
有目标的对事物进行分类预测，如：客户流失预测、偷窃电用户识别等。
关联规则
关联模式挖掘旨在从大量的数据当中发现特征之间或数据之间的相互依赖关系。
这种存在于给定数据集中的频繁出现的关联模式，又称为关联规则。
聚类分析
聚类分析是根据数据本身结构特征对数据点进行分类的方法
。实质是按照彼此距离的远近将数据分为若干个类别，以使得类别内数据的“差异性”尽可能小(即“同质性”尽可能大)，类别间“差异性”尽可能大。
时间序列
基于事物发展的延续性和随机性预测事物未来的发展，如：销售量预测、天气预测等。

1.定义挖掘目标
针对具体的数据挖掘应用需求，首先要明确本次的挖掘目标是什么？系统完成后能达到什么样的效果？因此我们必须分析应用领域，包括应用中的各种知识和应用目标，了解相关领域的有关情况，熟悉背景知识，弄清用户需求。要想充分发挥数据挖掘的价值，必须要对目标有一个清晰明确的定义，即决定到底想干什么。
2.数据取样
1.在明确了需要进行数据挖掘的目标后，接下来就需要从业务系统中抽取出一个与挖掘目标相关的样本数据子集。抽取数据的标准，一是相关性，二是可靠性，三是有效性，而不是动用全部企业数据。通过数据样本的精选，不仅能减少数据处理量，节省系统资源，而且使我们想要寻找的规律性更加突显出来。
2.进行数据取样，一定要严把质量关。因为数据挖掘是要探索企业运作的内在规律性，原始数据有误，就很难从中探索规律性。若真的从中还探索出来了什么“规律性”，再依此去指导工作，则很可能会造成误导。若从正在运行的系统中进行数据取样，更要注意数据的完整性和有效性。
数据抽样方法

随机抽样：在采用随机抽样方式时，数据集中的每一组观测值都有相同的被抽样的概率。

等距抽样：如按 5%的比例对一个有100 组观测值的数据集进行等距抽样，则有：100 / 5 = 20，等距抽样方式是取第20、40、60、80 和第100 五组观测值。

分层抽样：在这种抽样操作时，首先将样本总体分成若干个子集。在每个层次中的观测值都具有相同的被选用的概率，但对不同的层次可设定不同的概率。这样的抽样结果通常具有更好的代表性，进而使模型具有更好的拟合精度。

从起始顺序抽样：这种抽样方式是从输入数据集的起始处开始抽样。抽样的数量可以给定一个百分比，或者直接给定选取观测值的组数。

分类抽样：在前述几种抽样方式中，并不考虑抽取样本的具体取值。分类抽样则依据某种属性的取值来选择数据子集。，如按客户名称分类、按地址区域分类等。分类抽样的选取方式就是前面所述的几种方式，只是抽样以类为单位。

对所抽取的样本数据进行探索、审核和必要的加工处理，是保证最终的挖掘模型的质量所必需的。可以说，挖掘模型的质量不会超过抽取样本的质量。数据探索和预处理的目的是为了保证样本数据的质量，从而为保证模型质量打下基础。

数据探索主要包括：异常值分析、缺失值分析、相关分析、周期性分析等。

由于采样数据中常常包含许多含有噪声、不完整、甚至不一致的数据，对数据挖掘所涉及的数据对象必须进行预处理。那么如何对数据进行预处理以改善数据质量，并最终达到完善最终的数据挖掘结果的目的呢？

样本抽取完成并经预处理后，接下来要考虑的问题是：本次建模属于数据挖掘应用中的哪类问题（分类、聚类、关联规则、时序模式或是智能推荐），选用哪种算法进行模型构建？

模型评价的目的之一就是从这些模型中自动找出一个最好的模型出来，另外就是要根据业务对模型进行解释和应用。

对分类与预测模型和聚类分析模型的评价方法是不同的。

不管黑猫、白猫，抓到老鼠就是好猫。