python、Java、大数据和Android的薪资如何？

　　莫名其妙，从去年年底开始，Python这个东西在中国，突然一下子就火起来了，直至现在，他的热度更是超越了java，成为软件工程师最为关注的话题。Python之所以能火起来，很大一方面是因为大数据、人工智能和机器学习越来越受人关注的原因，那么，伴随着Python的火热，他的薪资是否也相应的高了起来了呢？于是，针对这个话题，在今年暑假，我做了一个关于Python、java和大数据和安卓的工作岗位的调查。

　　Java火了几十年，工作也是所有编程语言中最容易找的，这里面有很大一部分原因是由于安卓还得由Java开发（即使现在出了Kotlin），那么Python和大数据的工作状态又是怎么样的呢？于是在这里，我从51job中爬取了这四个职业的相关情况。

一、项目介绍

主要目标

1、分析python、Java、大数据和Android岗位的薪资如何？

2、分析python、Java、大数据和Android岗位在全国的分布情况

3、python、Java、大数据和Android的前景到底如何？

环境

win7、python2、pycharm

技术

1、数据采集：scrapy、

2、数据存储：csv文件、json文件

3、数据清洗：pandas

4、可视化：matplotlib、百度地图API

二、爬取

在招聘网上分别搜索这四个职业，查看了一下url、页码和需要爬取的数据，求出xpath：

使用scrapy框架进行爬取，代码如下：

items:

import scrapy


class Job51Item(scrapy.Item):
    # 职位名
    jobname = scrapy.Field()

    # 公司名
    company = scrapy.Field()

    # 工作地点
    work_place = scrapy.Field()

    # 薪资
    salary = scrapy.Field()

    # 职位链接
    joblink = scrapy.Field()

spiders:

# -*- coding: utf-8 -*-
import scrapy
from ..items import Job51Item


class JobSpider(scrapy.Spider):
    name = \'job\'
    allowed_domains = [\'51job.com\']
    offset = 1

    # ------------
    # 控制链
    lang = \'安卓\'   # 职位
    page = 260    # 页码
    # ------------

    start_urls = [\'https://search.51job.com/list/000000,000000,0000,00,9,99,%s,2,%d.html\'%(lang,offset)]

    def parse(self, response):

        ajob = response.xpath(\'//div[@id="resultList"]/div[@class="el"]\')

        for job in ajob:

            item = Job51Item()

            item[\'jobname\'] = job.xpath(\'./p/span/a/@title\').extract()

            item[\'company\'] = job.xpath(\'./span[1]/a/text()\').extract()

            item[\'work_place\'] = job.xpath(\'./span[2]/text()\').extract()

            item[\'salary\'] = job.xpath(\'./span[3]/text()\').extract()

            item[\'joblink\'] = job.xpath(\'./p/span/a/@href\').extract()

            yield item

        if self.offset <= self.page:
            self.offset += 1
            yield scrapy.Request(url=\'https://search.51job.com/list/000000,000000,0000,00,9,99,%s,2,%d.html\'%(self.lang,self.offset),callback=self.parse)

修改控制链中的lang和page变量，分别爬取4个职位。

运行scrapy：scrapy crawl job -o android1.csv

数据保存在一个csv文件中，会得到5个csv文件，对应4种职位，其中Android有Android和安卓：

接下来对文件去重合并：

# -*- coding: utf-8 -*-
import pandas as pd

java_job = pd.read_csv(\'data/job_java.csv\')
# print java_job.shape
# (100000, 5)

python_job = pd.read_csv(\'data/job_python.csv\')
# print python_job.shape
# (41421, 5)

bigdata_job = pd.read_csv(\'data/job_bigdata.csv\')
# print bigdata_job.shape
# (61191, 5)

android1_job = pd.read_csv(\'data/job_android1.csv\')
# print android1_job.shape
# (31734, 5)

android2_job = pd.read_csv(\'data/job_android2.csv\')
# print android2_job.shape
# (12961, 5)

df = pd.concat([java_job,python_job,bigdata_job,android1_job,android2_job])
# df = python_job.append(java_job).append(bigdata_job)
# print df.shape
# (202612, 10)
# 添加Android12之后：(247308, 5)

# df.to_csv(\'data/job.csv\',index=False)
df.drop_duplicates(inplace=True)
print df.shape
# (168544, 5)
# (192781, 5)
df = df.reindex(columns=[u\'jobname\', u\'work_place\', u\'salary\', u\'company\', u\'joblink\'])
df.to_csv(\'data/job.csv\',index=False)

文件：

部分文件结果截图：

接着跟进链接，爬取职位详细信息，如图：

代码如下：

items:

class BaseJobItem(scrapy.Item):

    # 职位链接
    job_link = scrapy.Field()

    # 职位信息
    job_info = scrapy.Field()

    # 职能类型
    job_type = scrapy.Field()

spiders：

# -*- coding: utf-8 -*-
import scrapy
from ..items import BaseJobItem
import pandas as pd


def get_link():

    df = pd.read_csv(\'../data/job.csv\',encoding=\'utf-8\')

    return df[\'joblink\']


class JobSpider(scrapy.Spider):
    name = \'basejob\'
    allowed_domains = [\'51job.com\']

    start_urls = get_link()

    def parse(self, response):

        item = BaseJobItem()

        job_info = response.xpath(\'//div[@class="bmsg job_msg inbox"]/p/text()\').extract()
        job_type = response.xpath(\'//div[@class="bmsg job_msg inbox"]/div[@class="mt10"]/p[1]/span[@class="el"]/text()\').extract()

        item[\'job_link\'] = response.url
        item[\'job_info\'] = job_info
        item[\'job_type\'] = job_type

        return item

运行：scrapy crawl basejob -o basejob.csv

数据量有点大，话费了三个小时爬完。

效果如下：

文件有184M：

接下来将两个文件(job.csv和basejob.csv)合并：

# -*- coding: utf-8 -*-
import pandas as pd

df1 = pd.read_csv(\'./data/basejob.csv\',header=0,encoding=\'utf-8\',names=u\'job_info,job_type,joblink\'.split(\',\'))

df2 = pd.read_csv(\'./data/job.csv\',encoding=\'utf-8\')

# print df1.head()
df = pd.merge(df1,df2,on=\'joblink\')

print df.sample(5)

df = df.reindex(columns=u\'jobname,work_place,salary,company,joblink,job_type,job_info\'.split(\',\'))
df.to_csv(\'./data/zhaoping.csv\',index=False,encoding=\'utf-8\')
# ,index_label=u\'jobname,work_place,salary,company,joblink,job_type,job_info\'.split(\',\')

得到最终文件zhaoping.csv：

三、分析

这四种职业的薪资如何呢？针对这个问题，我将这些数据进行清洗，然后分析再使之可视化。

因为只需要分析薪资，所以知道职位和薪资的字段就行了，这里使用job.csv文件进行分析。

首先读取数据并清洗：

import pandas as pd

df = pd.read_csv(\'data/job.csv\', encoding=\'utf-8\')

df = df[~df[\'salary\'].isna()]

df[\'salary\'] = df[\'salary\'].apply(get_salary)

接下来将薪资格式化：

def get_salary(salary):
    """
    将薪资格式化
    :param salary:薪资，如：1-1.5万/月
    :return: 10K
    """

    time = salary.split(\'/\')[1]
    if salary.__contains__(\'-\'):
        money = salary.split(\'/\')[0][-1]
        salary_num = salary.split(\'-\')[0]
    else:
        salary_num = re.search(\'\d+\',salary.split(\'/\')[0]).group()
        money = salary.split(\'/\')[0].strip(salary_num)
    try:
        salary_num = float(salary_num)
    except:
        print salary,\'=\',money,salary_num
    if time == u\'年\':
        salary_num = salary_num/12
    elif time == u\'天\':
        salary_num *= 30.
    elif time == u\'小时\':
        salary_num *= 30*12
    if money == u\'万\':
        salary_num *= 10
    elif money == u\'元\':
        salary_num /= 1000

    return salary_num

获取不同语言的薪资待遇的对比并画图：

def diff_lang():
    """
    获取不同语言的薪资待遇的对比
    :return:
    """

    lang = [\'python\',\'java\',u\'大数据\',u\'安卓\',\'android\']

    avg_salary = map(get_avg_salary,lang)

    # 针对Android和安卓做特殊处理
    lang = lang[:-1]
    avg_salary = avg_salary[:-2]+[sum(avg_salary[-2:])/len(avg_salary[-2:])]

    print lang
    print avg_salary

    for i,j in zip(lang,avg_salary):
        print \'%s的平均薪资为:%.3fK\' % (i.encode(\'utf-8\'),j)

    p = plt.bar(lang,avg_salary)

    autolabel(p)
    plt.xlabel(u\'编程语言\')
    plt.ylabel(u\'平均薪资\')
    plt.title(u\'python、java、大数据和安卓职业薪资待遇对比\')
    plt.show()

还有获取某个编程语言的平均薪资的方法：

def get_avg_salary(lang=\'\',city=\'\'):
    """
    获取某个编程语言的平均薪资
    :param lang: 编程语言名
    :return: 平均薪资
    """
    jobdf = df[df[\'jobname\'].str.contains(lang)]

    if city != \'\':
        jobdf = jobdf[jobdf[\'work_place\'].str.contains(city)]
        if jobdf.shape[0] < 10:
            return
    sum_salary = jobdf[\'salary\']

    return sum_salary.astype(float).mean()

还有画图时显示柱状图上的数值的方法：

def autolabel(rects):
    """
    定义函数来显示柱状上的数值
    :param rects:matplotlib.container.BarContainer
    :return:
    """
    for rect in rects:
        height = rect.get_height()
        plt.text(rect.get_x(), 1.01*height, \'%.1f\' % float(height))

为了显示中文字还要声明一下字体：

plt.rcParams[\'font.sans-serif\'] = [\'kaiti\']

运行diff_lang()函数：

从图中可以看出，大数据的薪资是最高的，达到了1W以上，而Python和Java位居二三，却远远没有大数据的薪资高，而安卓在这几个职位中薪资是最低的。

然后对同一语言不通地区薪资的待遇进行分析对比：

def diff_place():
    """
    获取同一语言不通地区薪资的待遇
    :return:
    """

    citys = list(df[\'work_place\'].str.split(\'-\').map(lambda x:x[0]).drop_duplicates())

    citys.remove(u\'朝阳\')
    # 朝阳有点特殊，有些城市直接就是朝阳，不过数量太少，直接忽略了，所以这里做朝阳的特殊处理

    lang = [\'python\', \'java\', u\'大数据\',u\'安卓\',\'android\']

    # ls如：[\'python\',\'北京\']
    ls = [[a,b] for a in lang for b in citys]

    # x是某种语言在某个城市的平均薪资
    x = [get_avg_salary(*l) for l in ls]


    info = {}

    for i,j in zip(ls,x):
        # if j != None:
        #     print i[0],i[1],j
        if not info.has_key(i[0]):
            info[i[0]] = {}
            info[i[0]][\'city\'] = []
            info[i[0]][\'avg_salary\'] = []
        if j != None:
            info[i[0]][\'city\'] += [i[1]]
            info[i[0]][\'avg_salary\'] += [j]

    # info的可能取值如：info = {"python": {"city": ["上海", "成都",...],"avg_salary": [11.974358974358974, 7.016129032258065, ...]},...}

    # 特殊处理:对安卓和Android的数据进行合并
    info = get_android(info)

    with open(\'./data/inf.json\',\'w\') as inf:
        json.dump(info,inf)

    plt.figure(1,(12,6))
    plt.title(u\'python、java、大数据和安卓职业各城市薪资待遇对比(单位：K)\')
    for l in lang[:-1]:
        plt.subplot(len(lang[:-1]),1,lang.index(l) + 1)

        so = zip(info[l][\'city\'],info[l][\'avg_salary\'])
        so.sort(key=lambda x:x[1],reverse=True)
        p = plt.bar(range(len(info[l][\'city\'])),map(lambda x:x[1],so),label=l)
        plt.xticks(range(len(info[l][\'city\'])),map(lambda x:x[0],so),rotation=45)
        autolabel(p)
        plt.tight_layout()
        plt.legend()

    plt.show()

对安卓和Android的数据进行合并：

def get_android(info):
    """
    对安卓和Android的数据进行合并
    :param info: = {"python": {"city": ["上海", "成都",...],"avg_salary": [11.974358974358974, 7.016129032258065, ...]},...}

    :return: info
    """
    citys = set(info[\'android\'][\'city\']+info[u\'安卓\'][\'city\'])

    for city in citys:
        i,j = 0, 0
        if city in info[\'android\'][\'city\']:
            i = info[\'android\'][\'avg_salary\'][info[\'android\'][\'city\'].index(city)]
        if city in info[u\'安卓\'][\'city\']:
            j = info[u\'安卓\'][\'avg_salary\'][info[u\'安卓\'][\'city\'].index(city)]
        else:
            info[u\'安卓\'][\'city\'].append(city)
            info[u\'安卓\'][\'avg_salary\'].append(i)
        info[u\'安卓\'][\'avg_salary\'][info[u\'安卓\'][\'city\'].index(city)] = (i+j)/2
    del info[\'android\']
    return info

最后得到同一语言不同地区薪资的待遇结果图如下：

可以以热力图显示数据，这里使用百度的api：

# -*- coding: utf-8 -*-
import json
from urllib import urlopen, quote
import sys

reload(sys)
sys.setdefaultencoding(\'utf-8\')

def getlnglat(address):
    url = \'http://api.map.baidu.com/geocoder/v2/\'
    output = \'json\'
    ak = \'FOtHtZ92dCKMjpx0XA05g8VEZn95QWOK\'
    add = quote(address.encode(\'utf-8\')) #由于本文城市变量为中文，为防止乱码，先用quote进行编码
    uri = url + \'?\' + \'address=\' + add  + \'&output=\' + output + \'&ak=\' + ak
    print uri
    req = urlopen(uri)
    res = req.read() #将其他编码的字符串解码成unicode
    temp = json.loads(res) #对json数据进行解析
    return temp

file = open(r\'./data/city.json\',\'w\') #建立json数据文件
with open(r\'./data/test.json\', \'r\') as f:

    js = json.load(f)

    data = []
    for k,v in js.iteritems():
        c = {}
        c[\'city\'] = k
        c[\'points\'] = []
        for i in range(len(v[\'city\'])):
            if v[\'city\'][i] == u\'异地招聘\':
                continue
            lnglat = getlnglat(v[\'city\'][i])  # 采用构造的函数来获取经度
            test = {}
            test[\'lng\'] = lnglat[\'result\'][\'location\'][\'lng\']
            test[\'lat\'] = lnglat[\'result\'][\'location\'][\'lat\']
            test[\'count\'] = v[\'avg_salary\'][i]

            c[\'points\'].append(test)
        data.append(c)

    json.dump(data,file,ensure_ascii=False)

那么Python在不同地区薪资的待遇热力图如下，其中，越往中间颜色越深薪资越高：

从上如看出Python 的主要工作地区集中在长江三角洲、珠江三角洲一带，而北京的薪资是最高的还有几个内地城市占比也不低。

那么看一下Java在不同地区薪资的待遇热力图：

从图可以看出，Java工作地点同样是集中于那三带地区，不过相比于Python，他的主要工作地点更多，且最高薪资大多集中在珠江三角洲。

再看一下大数据在不同地区薪资的待遇热力图：

目测大数据和Java分布差别不大，不过从图中红色区域分布可以看出，大数据的薪资更高。

最后看一下安卓在不同地区薪资的待遇热力图：

安卓的工作分布低于其他的几种（比Python略高点），而且薪资也也不如其他的几门语言。

从上述四个热力图分析不难看出：

1、大数据无论是工作地点还是薪资均高于其他三种职业；

2、Python火则火矣，薪资也不低，但工作地点还是太少；

3、Java仍旧是宝刀未老，其工作地点和薪资也仅次于大数据行业；

4、安卓终究过时了，薪资比不上其他三个职业，也就工作地点要比Python多点；

由此观之，大数据的发展空间是最大的，前途也是最好的，Java仍然是不二的选择，Android已过时，Python还待发展。

再看一下4种职位的岗位分析图

先看Python岗位的代码：

# -*- coding: utf-8 -*-
import pandas as pd
import matplotlib.pyplot as plt

plt.rcParams[\'font.sans-serif\'] = [\'kaiti\']

df = pd.read_csv(\'./data/job_python.csv\',encoding=\'utf-8\')

s = df[\'jobname\'].value_counts()

job = s[s>150]

plt.pie(x =job.values,labels=job.index,autopct=\'%2.1f%%\')

plt.show()

其他的同理，最后得到饼图：

Python：

Java：

大数据：

安卓：

最后来看一下Python语言的职能类型词云，代码：

# -*- coding: utf-8 -*-
import pandas as pd


df1 = pd.read_csv(\'./data/job_python.csv\',encoding=\'utf-8\')

df2 = pd.read_csv(\'./data/zhaoping.csv\', encoding=\'utf-8\')

df = pd.merge(df1,df2,on=list(df1.columns))

df = df[~df[\'job_info\'].isna()]

dfpy = df[df[\'job_info\'].str.contains(\'python\')]

s = dfpy[\'job_type\'].str.split(\',\').sum()

# print pd.Series(s).value_counts()
print s

# 绘制词云图：
from wordcloud import WordCloud
import matplotlib.pylab as plt


wl = " ".join(s)

generate = WordCloud(
    # \'C:/Users/Windows/fonts/msyh.ttf\'
    font_path = \'C:/Users/Windows/fonts/msyh.ttf\',
    background_color=\'white\',
    max_words=30,
    prefer_horizontal = 0.8,
    random_state=88
).generate(wl)

plt.figure(figsize=(8,5))
plt.imshow(generate)
plt.axis("off")
# plt.savefig(u\'../day5-2/黑卡词云图.png\')
plt.show()

其他职业的也大致如此.

Python：

Java：

大数据：

安卓：