逻辑回归分类预测案例《电信流失客户分析》

【案例背景】

本案例收集了某电信行业客户数据，主要包含：在网月数、年龄、婚姻状况、现地址居住时间、教育程度、工作状态、性别、租设备、IP电话、无线电话、本月话费、语音信箱、网络、来电显示、呼叫等待、呼叫转移、流失状态等字段数据，一共600条数据。

数据源介绍
数据源中在网月数是到数据收集时间为止的在网月数。逻辑回归分类预测案例《电信流失客户分析》这里用户流失状态判断是根据用户在近2个月是否还在使用手机号码为准。

【分析目的】

根据数据分学习客户特征，并根据客户的这些特征对客户是否会流失进行预测。

数据分析步骤：

数据预处理

1、描述性统计分析：
逻辑回归分类预测案例《电信流失客户分析》

逻辑回归分类预测案例《电信流失客户分析》
数据无缺失值；除了本月话费有异常，其他变量无异常值。本月话费异常值保留，不做处理。

2、相关性分析
选取连续型变量做相关矩阵分析。
逻辑回归分类预测案例《电信流失客户分析》
无高相关性变量（相关系数>0.8%），无需其他操作。

数据模型选择：逻辑回归
训练集结果
逻辑回归分类预测案例《电信流失客户分析》

测试集结果：

正确率为预测正确数/总数
精准率为预测为（1/0）的正确率
召回率（查全率）为样本为（1/0）的正确率

补充：

1、适用场景：二分类比较常见，但也有及分类的情况
2、数据收集：注意数据不平衡的问题（1：4之类），可以采用过采样，欠采样或SMOTE抽样（合成少数类过采样技术）的方法解决
3、预处理：缺失值：删除或填补
异常值：删除、填补或保留
相关性检验：是否存在数据冗余
定性数据进行独热编码处理
4、套用算法：选择分类算法（决策树、逻辑回归等算法）
5、结果分析：训练集结果解读（正确率，精准率，召回率，F1得分等各项指标，趋近与1是比较理想的）
测试集结果解读（如果测试集上的上述指标不高，说明泛华误差大，反之，泛化误差小，模型结果良好）