企业非法集资风险预测第一周周报
1.赛题理解
-
背景:非法集资严重干扰了正常的经济、金融秩序,使参与者遭受经济损失,甚至生活陷入困境,极易引发社会不稳定和大量社会治安问题,甚至引发局部地区的社会动荡。如何根据大量的企业信息建立预测模型并判断企业是否存在非法集资风险,对监管部门、企业合作伙伴、投资者都具有一定的价值。
-
任务:利用机器学习、深度学习等方法训练一个预测模型,该模型可学习企业的相关信息,以预测企业是否存在非法集资风险。赛题的难点在于数据集包括大量的企业相关信息,如何从中提取有效的特征并进行风险预测成为本赛题的关键问题。
2.数据初步认识
该数据集包含约25000家企业数据,其中约15000家企业带标注数据作为训练集,剩余数据作为测试集。数据由企业基本信息、企业年报、企业纳税情况等组成,数据包括数值型、字符型、日期型等众多数据类型(已脱敏),部分字段内容在部分企业中有缺失,其中第一列id为企业唯一标识。
- 主要包含以下字段
id:企业唯一标识,
oplocdistrict:行政区划代码,
industryphy:行业类别代码,
industryco:行业细类代码,
dom:经营地址,
opscope:经营范围,
enttype:企业类型,
enttypeitem:企业类型小类,
opfrom:经营期限起,
opto:经营期限止,
state:状态,
orgid:机构标识,
jobid:职位标识,
adbusign:是否广告经营,
townsign:是否城镇,
regtype:主题登记类型,
empnum:从业人数,
compform:组织形式,
parnum:合伙人数,
exenum:执行人数,
opform:经营方式,
ptbusscope:兼营范围,
venind:风险行业,
enttypeminu:企业类型细类,
midpreindcode:中西部优势产业代码,
protype:项目类型,
oploc:经营场所,
regcap:注册资本(金),
reccap:实缴资本,
forreccap:实缴资本(外方),
forregcap:注册资本(外方),
congro:投资总额,
enttypegb:企业(机构)
(暂时只对baseinfo数据进行分析)
3.数据分析(简单操作)
- 初步分析是很多字段的缺失值太多,下面进行简单操作对缺失值较多的字段进行直接删除
[‘enttypeitem’, ‘opto’, ‘empnum’, ‘compform’, ‘parnum’,‘exenum’, ‘opform’, ‘ptbusscope’, ‘venind’, ‘enttypeminu’, ‘midpreindcode’, ‘protype’, ‘reccap’, ‘forreccap’, ‘forregcap’, ‘congro’] - 将单一值较多的字段也剔除,如dom,opscore,oploc
- 拆分月份特征
- 将无关特征剔除,如id
4.特征工程(暂不做处理)
5.模型选择
和之前的不良贷款预测一样,选用lgbm模型,参数设置如下
调参后续进行