python数据分析------pandas,numpy
先解决几个问题:
1、python的虚拟环境创建
如果有虚拟环境,点击选择"show all",进入后选择对应的虚拟环境即可,如果没有虚拟环境,选择Add,创建一个新的虚拟环境
选择Virtualenv Environment 继续选择New environment
注意:
在Location选择你建立虚拟环境的目录
在Base interpreter 选择你安装的pythonJDK的目录
点击ok即可
下面正式进入今天的正题:
1、先来查看一下数据信息
1 LC = pd.read_csv(\'D:\Date\Date_file\ppdai_3_23\LC.csv\') 2 LP = pd.read_csv(\'D:\Date\Date_file\ppdai_3_23\LP.csv\') 3 4 LP.info()
5 LC.info()
可以看到一些数据的信息,例如:字段名,类型,数据量等
2、用户画像分析
性别分析:
1 #性别分析 2 male = LC[LC[\'性别\'] == \'男\'] 3 female = LC[LC[\'性别\'] == \'女\'] 4 5 sex = (male,female) 6 sex_data = (male[\'借款金额\'].sum(),female[\'借款金额\'].sum()) 7 sex_idx = (\'man\',\'woman\') 8 # plt.figure(figsize=(15,6)) 9 plt.subplot(1,3,1) 10 plt.pie(sex_data,labels=sex_idx,autopct=\'%.1f%%\') 11 plt.show() 12 13 #新老客户分析 14 new = LC[LC[\'是否首标\'] == \'是\'] 15 old = LC[LC[\'是否首标\'] == \'否\'] 16 newold_data = (new[\'借款金额\'].sum(),old[\'借款金额\'].sum()) 17 new_idx = (\'NewCustomers\',\'OldCustomers\') 18 plt.subplot(1,3,2) 19 plt.pie(newold_data,labels=new_idx,autopct=\'%.1f%%\') 20 plt.show()
3、借款金额分析
每日分析
1 #分析每日贷款金额的走势 2 loan = LC[[\'借款成功日期\', \'借款金额\']].copy() 3 loan[\'借款日期\'] = pd.to_datetime(loan[\'借款成功日期\']) 4 loan1 = loan.pivot_table(index=\'借款日期\', aggfunc=\'sum\').copy() 5 plt.figure(figsize=(15, 6)) 6 plt.subplot(1,2,1) 7 plt.plot(loan1) 8 plt.xlabel(\'date\') 9 plt.ylabel(\'Loan amount\') 10 plt.title(\'Daily amount fluctuation\')
每月分析
1 #分析每月贷款金额的走势 2 loan[\'借款成功月份\'] = [datetime.strftime(x, \'%Y-%m\') for x in loan[\'借款日期\']] 3 loan2 = loan.pivot_table(index=\'借款成功月份\', aggfunc=\'sum\').copy() 4 plt.subplot(1,2,2) 5 plt.plot(loan2) 6 plt.xlabel(\'date\') 7 plt.xticks([\'2015-01\',\'2015-07\',\'2016-01\',\'2016-07\',\'2017-01\']) 8 plt.ylabel(\'Loan amount\') 9 plt.title(\'Monthly amount fluctuation\') 10 plt.show()
以上是实操内容的一部分,其他部分后续更新
附详细数据报告地址:
https://www.kesci.com/mw/project/5c96eab88408c1002b453be3/content