【案例背景】
本案例收集了某电信行业客户数据,主要包含:在网月数、年龄、婚姻状况、现地址居住时间、教育程度、工作状态、性别、租设备、IP电话、无线电话、本月话费、语音信箱、网络、来电显示、呼叫等待、呼叫转移、流失状态等字段数据,一共600条数据。
数据源介绍
数据源中在网月数是到数据收集时间为止的在网月数。这里用户流失状态判断是根据用户在近2个月是否还在使用手机号码为准。
【分析目的】
根据数据分学习客户特征,并根据客户的这些特征对客户是否会流失进行预测。
数据分析步骤:
数据预处理
1、描述性统计分析:
数据无缺失值;除了本月话费有异常,其他变量无异常值。本月话费异常值保留,不做处理。
2、相关性分析
选取连续型变量做相关矩阵分析。
无高相关性变量(相关系数>0.8%),无需其他操作。
数据模型选择:逻辑回归
训练集结果
测试集结果:
正确率为预测正确数/总数
精准率为预测为(1/0)的正确率
召回率(查全率)为样本为(1/0)的正确率
补充:
1、适用场景:二分类比较常见,但也有及分类的情况
2、数据收集:注意数据不平衡的问题(1:4之类),可以采用过采样,欠采样或SMOTE抽样(合成少数类过采样技术)的方法解决
3、预处理:缺失值:删除或填补
异常值: 删除、填补或保留
相关性检验:是否存在数据冗余
定性数据进行独热编码处理
4、套用算法:选择分类算法(决策树、逻辑回归等算法)
5、结果分析:训练集结果解读(正确率,精准率,召回率,F1得分等各项指标,趋近与1是比较理想的)
测试集结果解读(如果测试集上的上述指标不高,说明泛华误差大,反之,泛化误差小,模型结果良好)