企业非法集资风险预测

背景：非法集资严重干扰了正常的经济、金融秩序，使参与者遭受经济损失，甚至生活陷入困境，极易引发社会不稳定和大量社会治安问题，甚至引发局部地区的社会动荡。如何根据大量的企业信息建立预测模型并判断企业是否存在非法集资风险，对监管部门、企业合作伙伴、投资者都具有一定的价值。
任务：利用机器学习、深度学习等方法训练一个预测模型，该模型可学习企业的相关信息，以预测企业是否存在非法集资风险。赛题的难点在于数据集包括大量的企业相关信息，如何从中提取有效的特征并进行风险预测成为本赛题的关键问题。

该数据集包含约25000家企业数据，其中约15000家企业带标注数据作为训练集，剩余数据作为测试集。数据由企业基本信息、企业年报、企业纳税情况等组成，数据包括数值型、字符型、日期型等众多数据类型（已脱敏），部分字段内容在部分企业中有缺失，其中第一列id为企业唯一标识。

初步分析是很多字段的缺失值太多，下面进行简单操作对缺失值较多的字段进行直接删除
[‘enttypeitem’, ‘opto’, ‘empnum’, ‘compform’, ‘parnum’,‘exenum’, ‘opform’, ‘ptbusscope’, ‘venind’, ‘enttypeminu’, ‘midpreindcode’, ‘protype’, ‘reccap’, ‘forreccap’, ‘forregcap’, ‘congro’]
将单一值较多的字段也剔除，如dom，opscore，oploc
拆分月份特征
将无关特征剔除，如id

和之前的不良贷款预测一样，选用lgbm模型，参数设置如下
企业非法集资风险预测
调参后续进行

企业非法集资风险预测