数据分析与挖掘（四）挖掘建模（1）分类与预测

经过数据探索与数据预处理，得到了可以直接建模的数据。。根据挖掘目标和数据形式可以以建立分类与预测，聚类分析，关联规则，时序分析和偏差检测。

分类和预测是预测问题的两种主要类型，分类主要是预测分类标号，而预测主要是建立连续值函数模型，预测给定自变量对于的因变量模型。

（1）分类

分类是构造一个分类模型，输入样本的属性值，输出对应的类别，将美股样本映射到预先定义好的类别。

（2）预测

预测是指建立两种或者两种以上变量间相互依赖的函数模型，然后进行预测或者控制。

（3）实现过程

数据分析与挖掘（四）挖掘建模（1）分类与预测

分类算法有两步过程：第一步是学习步，通过归纳分析训练样本来建立分类模型得到分类规则；第二步是分类步，先用已知的测试样本集评估分类规则的准确率，如果准确率是可以接受的，则使用该模型对未知类标号的待测样本进行预测。

预测模型的实现也有两步：第一步是通过训练集建立预测属性的函数模型，第二步在模型通过检验后进行预测或控制。

回归分析是通过建立模型来研究变量中相互关系的密切程度，结构形态及进行模型预测的一种有效工具。

数据分析与挖掘（四）挖掘建模（1）分类与预测

在数据挖掘环境下，自变量与因变量具有相互关系，自变量的值是自己的，因变量是预测的。