本文原始数据来自于拉勾网以上海区域数据运营岗为关键字搜索爬虫而来,为保证数据时效性,筛选了20200508-20200606期间的数据,分析的目的主要是在后续求职时给自己一个市场预期以及个人决策上的指导,以下是本次分析关注的主要问题:
1、疫情期间,数据运营岗位招聘需求变化如何,市场需求量大吗?
2、数据运营岗位招聘的总体现状如何?
如:学历要求,工作经验要求,行业分布等等
3、数据分析的薪资分布如何,行业平均薪资之间会有差异吗,差异多大呢
【数据分析过程】
1、数据清洗
以下为爬取数据后的原始数据集
经过一系列拆分和数据清洗,数据被整理成以下形式:
数据清洗过程总结如下:
清洗难点主要有:
①爬虫导出来的数据格式如若要放在excel中处理,最好用csv格式,xlsx导出后容易有bug
②csv格式下爬虫出来的结果仍然有很多特殊的地方,例如文本会有特殊符号,可以用clean()函数清楚不可打印的字符
③发布日期的计算和格式统一;擅于观察数据的大致形貌,善用替换功能做初步清洗,然后用文本函数提取出需要的内容
常见文本函数,find和midleft搭配,
补充小技巧:统计一个单元格内字符串包含某个字符的个数,可用len(单元格)-len(substitute(单元格,'/',"")) 思路就是总字符减去替换掉这个字符为空时的值即为字符串出现的次数
④擅于用辅助列的思维,辅助列和排序功能相结合有时候能发挥出很强大的效果
习惯方面:
①准备清洗之前,确定主要分析思路,大致清洗需要的数据分析字段,避免遗漏爬取重要字段
②数据清洗过程中要有两个文件,一个是结果集,一个是草稿集,便于追溯之前统计的结果
2、数据分析过程
(1)确认数据运营岗位需求变化情况
上图中时间轴为岗位发布时间,纵轴为岗位数量,
从需求岗位数量的变化情况来看,对比5月25到5月30号,近一周岗位发布数量明显增多,本周比上周岗位增长43%,仅数据运营相关岗位在拉钩上就有80个,市场回暖迹象明显,求职要有信心鸭
| 上周岗位数量 | 本周岗位数量 |
| 56 | 80 |
其中每周三-周五期间发布岗位最多,这时记得保持关注,锚定好目标行业和岗位,在周末的时候加紧充电,准备下周可能的面试,结合hr工作习惯,周二、周三比较适合投递简历
(2)数据运营岗位招聘总体现状(从招聘学历要求,行业分布和薪资分布三个角度来看)
①学历要求
爬取的137条数据中,本科学历要求占大多数,约85%,仅有一条需要硕士学历,说明数据运营岗位对学历要求没有很高
②经验要求
| 经验年限 | 岗位数量 | 平均工资(k) |
| 10年以上 | 3 | 40.00 |
| 5-10年 | 23 | 30.04 |
| 3-5年 | 60 | 20.61 |
| 不限 | 15 | 15.10 |
| 1-3年 | 26 | 13.04 |
| 1年以下 | 3 | 9.67 |
| 应届毕业生 | 7 | 5.21 |
结论:
- 工资分布和经验是很相关的,运营方面经验越丰富,岗位薪酬越高
- 结合自身情况,工作1年左右薪资约在10k左右
③岗位行业情况
行业分布情况
结合自身工作经验为1-3年,所以后续为专门筛选出了经验要求为不限,1-3年,和1年以下的数据,用于分析决策
ps:发现一个问题,拉钩网上很多为了分类方便,很多行业选择的很笼统,比如直接选择移动互联网(其实可以细分为电商,文娱等),但没有细分行业,图中数据已经结合企业标签字段数据,尽量保证行业细分的准确性,但依然会有不准确的现象存在,加之数据集数量不多,仅作为个人参考,不代表真实市场情况
结论:1、电商需求没有我想象的那么火热,需求程度处在中层水平
2、金融,文娱(b站和喜马拉雅),企业文娱排于前三,教育以及游戏出乎意料需求还ok,可以保持关注
④行业薪资分布情况
承接上文,在筛选了经验为不限、1年以下、1-3年的数据之后,所有岗位的平均薪资为15.89k(主要是字节爸爸拉高了薪资水平),上图黄色区域代表超过了平均薪资的行业,移动互联网,游戏,教育等行业平均薪资大于总体平均水平(消费生活,医疗等数据集仅有1个,作为特殊情况处理未纳入考虑范围内)
结合岗位行业需求情况和薪资分布情况,初步得出移动互联,游戏,教育,电商行业可以作为主要攻略目标