先把来源写上

来源:贪心学院,https://www.zhihu.com/people/tan-xin-xue-yuan/activities

过去决策树文章

贪心科技机器学习训练营(九)

贪心科技机器学习训练营(九)

贪心科技机器学习训练营(九)
贪心科技机器学习训练营(九)
贪心科技机器学习训练营(九)
贪心科技机器学习训练营(九)

使用决策树和随机森林预测员工离职率

我们的任务是帮助人事部门理解员工为何离职, 预测一个员工离职的可能性.

数据来源: https://www.kaggle.com/ludobenistant/hr-analytics

,打开却是404,去kaggle看了下

https://www.kaggle.com/daphnecor/predict-employee-turnover-rate-0

个人认为代码是其次的,关键是如何分析数据才重要

贪心科技机器学习训练营(九)

贪心科技机器学习训练营(九)
看下kaggle ,大神先用sns观看每个数据的分布
贪心科技机器学习训练营(九)

贪心科技机器学习训练营(九)
离职和不离职的
贪心科技机器学习训练营(九)
部门分布
贪心科技机器学习训练营(九)
每个部门的离职分布,hr跑的最多,真的生在福中不知福
贪心科技机器学习训练营(九)
原来跑的人都是工资太低了
贪心科技机器学习训练营(九)
7000美元折合人民币可是4.5万,哪里低了
贪心科技机器学习训练营(九)
跑的人都不满啊啊
贪心科技机器学习训练营(九)
跑的人工作多
贪心科技机器学习训练营(九)
跑的人有好有坏
贪心科技机器学习训练营(九)
最后看数据,跑的人就是不满意,每月的工作时间长,升迁没信心
贪心科技机器学习训练营(九)
任何数据都有相关矩阵 Correlation Matrix

代码非常简单

贪心科技机器学习训练营(九)
x 轴和y 轴对应的那个颜色深浅就是判断是否正负相关
贪心科技机器学习训练营(九)

分析完了,还不预测下,等下人又跑了

都是套路
贪心科技机器学习训练营(九)
这位数据分析者上传了一张树的img,把决策树画下来
贪心科技机器学习训练营(九)

他说训练和测试集的精度是100%,模型是过度拟合的,所以fisrt通过设置最大深度检查选项purne the tree

设置了深度==5
贪心科技机器学习训练营(九)

我还是看下老师的操作

贪心科技机器学习训练营(九)

这里的turnover就是trun
贪心科技机器学习训练营(九)

是负五十,肯定有关系了, 跑的人肯定不满意了

贪心科技机器学习训练营(九)

贪心科技机器学习训练营(九)

这个图和上面小提琴一样的道理,跑的人一半厉害一半垃圾
贪心科技机器学习训练营(九)

牛逼的人还画出概率分布图 sns 画概率分布图

sns.kdeplot 之前画概率分布图有点印象

iris的特征概率分布
贪心科技机器学习训练营(九)

贪心科技机器学习训练营(九)
贪心科技机器学习训练营(九)

贪心科技机器学习训练营(九)

我先说先下ROC 和 AUC
ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣。

AUC(Area Under Curve)被定义为ROC曲线下的面积,显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围在0.5和1之间。使用AUC值作为评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而作为一个数值,对应AUC更大的分类器效果更好。
贪心科技机器学习训练营(九)

贪心科技机器学习训练营(九)
贪心科技机器学习训练营(九)
贪心科技机器学习训练营(九)
贪心科技机器学习训练营(九)
贪心科技机器学习训练营(九)
贪心科技机器学习训练营(九)

贪心科技机器学习训练营(九)

最后,打广告

欢迎关注微信公众号

贪心科技机器学习训练营(九)

相关文章:

  • 2021-11-19
  • 2022-12-23
  • 2021-08-28
  • 2021-11-15
  • 2018-10-15
  • 2021-04-28
  • 2021-10-12
  • 2021-10-11
猜你喜欢
  • 2022-02-16
  • 2021-05-31
  • 2021-04-29
  • 2021-05-21
  • 2022-12-23
  • 2021-08-01
  • 2021-10-05
相关资源
相似解决方案