项目介绍:用excel对某招聘网站的数据分析方面的原始数据进行数据清洗、建模和分析,观察数据分析师的招聘需求如何。
原始数据如下:
一个数据分析小项目
过程如下:

一. 明确分析问题

可以从城市需求分布、薪资分布情况两方面来分析。

二. 数据清洗

1.理解数据,选择重点分析对象

得到原始数据后,先理解每一列的数据表示含义,选择出重点的分析对象,将无关紧要或者意义重复的列进行隐藏。

2.删除重复值,处理缺失值

对于数据中“职位ID项”,一个职位ID只会对应一个职位,如果对应多项,则为重复值需要删除。
一个数据分析小项目

删除重复值后,查看该列的数据数目,并与其他数列项作对比,如其他列小于该项数目,则说明有缺失值需要补充。使用定位功能可以找出缺失值。
处理缺失值处理缺失值有四种办法:通过人工手动补全;删除缺失数据;用平均值代替缺失值;用统计模型计算出的值代替缺失值。这里我们结合前后信息将缺失值手动补全。

3.数据处理,将数据转换成可以便于使用数据透视表或者使用公式的形式。比如源数据中的薪水是一个区间值,显然不方便后面的操作,所以需要把最低薪水和最高薪水分隔,以便于后续分析。这里我们用到find、left、right和len函数。
一个数据分析小项目
一个数据分析小项目
考虑到部分数据里薪水这一栏的K存在大小写,而公式用的小写k,会造成数据错误,这里将所有大写K用替换功能变为小写。
一个数据分析小项目
还是有部分最高薪水无法显示,原因是由于薪水列没有区间值,这里就用最低薪水直接复制过来。

4异常值处理
“职位名称”列中有非常多的职位名称,但我们需要分析的是数据分析类岗位,所以需要选择出与数据分析类岗位匹配的 “职位名称”。此时需要用到数据透视表功能。
插入数据透视表后,将职位名称选出如下。
一个数据分析小项目
接着将 “职位名称” 按计数项降序排列,如下图
一个数据分析小项目
挑选计数最多的职位名称里面的关键词,可看出为“数据分析”,“分析师”,“数据运营”为三个关键词,于是回到原表,在 “职位名称” 后插入新列,选择出 ”职位名称” 里包含这些关键词的职位,此时需要用到 Find 和 Count 和 If 函数。
一个数据分析小项目
筛选出 “是” 的所有数据,复制到新表中,作为已经清洗好的数据备用。

三.构建模型
数据清洗完成后,需要做的是构建模型。数据分析一定是有目的的,所以在最开始就提出的分析目标非常有助于建模。利用数透功能可得以下数据透视表:
一个数据分析小项目一个数据分析小项目
利用描述统计功能,可以对平均薪资的统计数据进行查看。
一个数据分析小项目
得到如下数据
一个数据分析小项目
四.数据可视化

最后可得如下可视化图表
一个数据分析小项目
可以得出结论:

  1. 数据分析师岗位的大量工作机会集中在一线城市和新一线城市,北京排在首位。
  2. 从待遇上看,该岗位在深圳和北京的薪资最突出,其次为杭州、上海
  3. 数据分析师是个较为年轻的职业方向,大量工作机会经验要求集中在1-3年
  4. 随着经验累积,薪酬不断提升,10年以上工作经验的人能获得相当丰厚的薪酬
  5. 对于成都来说,对3年以下工作经验的要求比较均匀,5年以后,随着工作年限增加,薪酬增长幅度不大

相关文章: