分类模型

预处理:生成虚拟变量

逻辑回归

学习打卡8.1
对于因变量为分类变量的情况,我们可以使用逻辑回归进行处理。
把y看成事件发生的概率,y>0.5表示发生;y<0.5表示不发生

线性概率模型

学习打卡8.1

两点分布(伯努利分布)

学习打卡8.1
定义是指值域

连续函数的取法

学习打卡8.1
学习打卡8.1

求解方法

学习打卡8.1

确定分类

学习打卡8.1

举例 判断水果的种类

第一步:导入数据
学习打卡8.1
第二步:预处理
学习打卡8.1
学习打卡8.1

学习打卡8.1
虚拟变量不需要这么多,保留1个即可
这里选择把第一列和第三列删去

第三步:求解逻辑回归
学习打卡8.1
学习打卡8.1
学习打卡8.1
学习打卡8.1
第四步:分析
学习打卡8.1
19个苹果样本中,预测出来为苹果的有14个,预测出来的正确率为73.7%;
19个橙子样本中,预测出来为橙子的有15个,预测出来的正确率为78.9%;
对于整个样本,逻辑回归的预测成功率为76.3%.

学习打卡8.1
学习打卡8.1
其中表格里面新增的两列分别为
学习打卡8.1

特殊情况处理

自变量有分类变量

(1)先创建虚拟变量,然后删除任意一列以排除完全多重共线性的影响;
学习打卡8.1
(2)直接点击分类,然后定义分类协变量,Spss会自动帮我们生成
学习打卡8.1

预测结果较差

可在logistic回归模型中加入平方项、交互项等
学习打卡8.1
加入后的结果
学习打卡8.1
弊端:过拟合
对于样本数据的预测非常好,但是对于样本外 的数据的预测效果可能会很差。
学习打卡8.1

如何确定合适的模型

把数据分为训练组和测试组,用训练组的数据来估计出模型,再用测试组的数据来进行测试
比例一般设置为8:2

注意:为了消除偶然性的影响,可以对上述步骤多重复几次, 终对每个模型求一个平均的准确率,这个步骤称为交叉验证

Fisher线性判别分析

LDA(Linear Discriminant Analysis)是一种经典的线性判别方法,又称Fisher判别分析
该方法思想比较简单:给定训练集样例,设法将样例投影到一维的直线 上,使得同类样例的投影点尽可能接近和密集,异类投影点尽可能远离
学习打卡8.1

核心问题 寻找线性系数向量

学习打卡8.1

SPSS操作

学习打卡8.1
学习打卡8.1
学习打卡8.1
学习打卡8.1

结果

学习打卡8.1
学习打卡8.1
学习打卡8.1

多分类问题

Fisher判别分析

SPSS操作

学习打卡8.1

预测结果

学习打卡8.1

Logistic回归

学习打卡8.1

SPSS操作

学习打卡8.1

模拟结果

学习打卡8.1

相关文章: