对于一组需要建模分析的数据,在将数据导入spssmoderler后,首先要做的工作应该是对数据进行处理,分类,筛选的工作,可以说这是整个数学建模中最基础的部分,也是必不可少的部分。
1、对数据进行审核并替换或删除空值。
导入数据后,应先对数据进行审核,观察字段是否有缺失值,异常值等,具体操作为“输出——数据审核——运行”,得到以下界面
从图中可以看出,id和age字段有效值数量不同,说明字段age存在空值,根据字段重要性可以选择删除或者替换数据,我们这种情况选择替换空值。选择“字段选项——填充”,先选择要填充字段及替换条件,此处替换为零
预览一下,发现空值被替换为0(替换用@MEAN函数)
也可用平均值替换空值
如果样本量足够大,可以考虑删除字段中的空值,集体操作为“记录选项——选择——丢弃空值或空白值”如下图
发现有null值的数据行已被过滤掉(丢弃空值和空白值用@NULL和@BLANK函数)
2、最常用的就是“选择”操作,可以从表中选取或舍弃想要的数据部分。操作流程为“记录选项——选择——包括或舍弃——在公示表达器创建条件函数——筛选出想要的数据”
3、用过滤器去掉不需要的或多余的字段,如图
4、分类则是对字段的属性和角色进行设置,操作为“字段选项——类型”最重要的是确定输入变量和目标变量,及要进行建模分析的自变量和因变量。
有时需要对字段测量属性进行更改,如进行回归分析时,就应该确保自变量是连续变量,比如上图中的产地和类型就需要重新分类并定义为连续变量(1.0,0.0)
5、其他的数据处理方式如可以对数据按照某个字段进行排序,对数据进行汇总,样本选择等操作。