数据来源:kaggle
百度云:原数据 提取码:bzhm
这只是在学习过程中的练习,如有问题,请多指教。
一、提出问题
1贷款金额的描述统计
2客户的情况对贷款金额的影响
二、数据处理
1.、数据理解
此份数据共有19个字段,截取其中12个字段进行分析,各字段意思如下:
Loan ID 记录ID
Customer ID 客户ID
Loan Status 贷款状况
Current Loan Amount 当前贷款金额
Term 期限
Credit Score 信用
Annual Income 年收入
Years in current job 目前工作时间
Home Ownership 住房情况
Purpose 目的
Monthly Debt 每月账单
Years of Credit History 信用历史

2、数据清洗

(1) 删除重复数据,共删除10215个重复数据,保留89785个数据。
(2) 缺失值处理, Current Loan Amount, Credit Score ,Annual Income,均有缺失值,在进行分析时,将缺失数据删除,并不会影响分析结果。
(3) 在 Current Loan Amount中发现有数据为 99999999 ,超过其贷款最大金额,判定为异常值,将其在分析时删除。同的Credit Score字段有的值过大,且个位都是0,猜测是输入时多输入了0,将0删除。
(4) 将Current Loan Amount,Credit Score,Annual Income,Monthly Debt,Years of Credit History,字段按如下分组
EXCEL 贷款数据分析
EXCEL 贷款数据分析
三、数据分析
1、贷款金额描述统计
EXCEL 贷款数据分析
通过分析结果可以发现,贷款金额的平均值为309988,中位数为266244,众数为216194,最大值为789250,最小值为10802 。
2、 贷款人的相似特征
(1) 期限
长期贷款与短期贷款的人数比例接近1:3,大多数的客户选择短期贷款。从数据透视表可以看出,选择短期贷款的客户,贷款金额较少,主要集中在100000-200000和200000-300000这两个区间,客户选择短期贷款可能是用于应急。而选择长期贷款的客户,贷款金额比短期贷款客户大,近20%的客户贷款600000以上,他们在短时间内无法偿还,从而选择长期贷款。
EXCEL 贷款数据分析EXCEL 贷款数据分析
(2) 信用
在区间700-740 的人数占总人数的54%,可见大部分客户的信用良好,只有极少部分人的信用不好。也因此在没一个贷款金额区间中,信用良好的人占大多数。
EXCEL 贷款数据分析
EXCEL 贷款数据分析
(3) 年收入
客户年收入大致呈正态分布,主要集中在中间的500000-1000000和1000000-5000000区间,其他区间所占百分比之和也只有5.2%。同时,年收入越多的客户,他们的还贷能力越大,所贷款的金额也就越多。
EXCEL 贷款数据分析
EXCEL 贷款数据分析
(4) 工作年限
贷款的客户中,大部分人的工作时间超过了十年,具有稳定的收入和一定的还贷能力。随着工作时间的增大,相应的贷款金额也增大。

EXCEL 贷款数据分析
EXCEL 贷款数据分析
(5) 住房情况
贷款的客户主要以租房和房屋抵押为主,分别占49%和42%。用房屋抵押或者拥有房屋的客户被认为是具有更强的偿还能力,风险性小,因此贷款的金额也越大。
EXCEL 贷款数据分析
EXCEL 贷款数据分析
(6) 每月债务
贷款客户的每月债务主要集中在0-20000和40000-60000,这两区间所占超过90%,可见,目标客户主要为月债务水平在中等及以下的客户,这样风险系数小。每月债务越多,贷款金额也越大,这也符合常理。

EXCEL 贷款数据分析
EXCEL 贷款数据分析
(7) 信用历史
58.8%的客户拥有10-20年的信用,拥有良好的信用,这些客户被认为是有稳定的收入和一定的偿还能力,风险系数低。同时,信用历史越长,客户的信用就越好,所贷款的钱也越多。
EXCEL 贷款数据分析
EXCEL 贷款数据分析
结论
此平台贷款的目标客户主要为需要短期贷款,信用良好,工作年限长,拥有一定偿还能力的人,降低其运营风险。

相关文章: