经过数据探索与数据预处理,得到了可以直接建模的数据。。根据挖掘目标和数据形式可以以建立分类与预测,聚类分析,关联规则,时序分析和偏差检测。

1.分类与预测

分类和预测是预测问题的两种主要类型,分类主要是预测分类标号,而预测主要是建立连续值函数模型,预测给定自变量对于的因变量模型。

  • 1.1实现过程

(1)分类

分类是构造一个分类模型,输入样本的属性值,输出对应的类别,将美股样本映射到预先定义好的类别。

(2)预测

预测是指建立两种或者两种以上变量间相互依赖的函数模型,然后进行预测或者控制。

(3)实现过程

数据分析与挖掘(四)挖掘建模(1)分类与预测

分类算法有两步过程:第一步是学习步,通过归纳分析训练样本来建立分类模型得到分类规则;第二步是分类步,先用已知的测试样本集评估分类规则的准确率,如果准确率是可以接受的,则使用该模型对未知类标号的待测样本进行预测。

预测模型的实现也有两步:第一步是通过训练集建立预测属性的函数模型,第二步在模型通过检验后进行预测或控制。

 

  • 1.2回归分析

回归分析是通过建立模型来研究变量中相互关系的密切程度,结构形态及进行模型预测的一种有效工具。

数据分析与挖掘(四)挖掘建模(1)分类与预测

 

在数据挖掘环境下,自变量与因变量具有相互关系,自变量的值是自己的,因变量是预测的。

 

 

 

 

相关文章: