先把来源写上
来源:贪心学院,https://www.zhihu.com/people/tan-xin-xue-yuan/activities
过去决策树文章
使用决策树和随机森林预测员工离职率
我们的任务是帮助人事部门理解员工为何离职, 预测一个员工离职的可能性.
数据来源: https://www.kaggle.com/ludobenistant/hr-analytics
,打开却是404,去kaggle看了下
https://www.kaggle.com/daphnecor/predict-employee-turnover-rate-0
个人认为代码是其次的,关键是如何分析数据才重要
看下kaggle ,大神先用sns观看每个数据的分布
离职和不离职的
部门分布
每个部门的离职分布,hr跑的最多,真的生在福中不知福
原来跑的人都是工资太低了
7000美元折合人民币可是4.5万,哪里低了
跑的人都不满啊啊
跑的人工作多
跑的人有好有坏
最后看数据,跑的人就是不满意,每月的工作时间长,升迁没信心
任何数据都有相关矩阵 Correlation Matrix
代码非常简单
x 轴和y 轴对应的那个颜色深浅就是判断是否正负相关
分析完了,还不预测下,等下人又跑了
都是套路
这位数据分析者上传了一张树的img,把决策树画下来
他说训练和测试集的精度是100%,模型是过度拟合的,所以fisrt通过设置最大深度检查选项purne the tree
设置了深度==5
我还是看下老师的操作
这里的turnover就是trun
是负五十,肯定有关系了, 跑的人肯定不满意了
这个图和上面小提琴一样的道理,跑的人一半厉害一半垃圾
牛逼的人还画出概率分布图 sns 画概率分布图
sns.kdeplot 之前画概率分布图有点印象
iris的特征概率分布
我先说先下ROC 和 AUC
ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣。
AUC(Area Under Curve)被定义为ROC曲线下的面积,显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围在0.5和1之间。使用AUC值作为评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而作为一个数值,对应AUC更大的分类器效果更好。
最后,打广告