数据集理解

赛题中一共给了三个数据集,其中train.csv为训练数据,有八十万条,testA.csv为测试数据,共二十万条。
数据一共有47列,主要特征如下:
风控——赛题理解
风控——赛题理解

预测指标

1.混淆矩阵
主要包括以下四个部分:
(1)若一个实例是正类,并且被预测为正类,即为真正类TP(True Positive )
(2)若一个实例是正类,但是被预测为负类,即为假负类FN(False Negative )
(3)若一个实例是负类,但是被预测为正类,即为假正类FP(False Positive )
(4)若一个实例是负类,并且被预测为负类,即为真负类TN(True Negative )
2.准确率
即预测正确的样本占总样本的比例
3.精确率
即正确预测为正样本占所有预测为正样本的比例
4.召回率
及正确预测为正样本占正样本的比例
5.F1_Score
是一个综合了精确率和召回率的指标
6.ROC
TPR:在所有实际为正例的样本中,被正确判断为正例的比率
FPR:在所有实际为负例的样本中,被错误判断为正例的比率
我的理解是,通常情况下TPR总是大于FPR,所以ROC曲线面积总是在0.5到1之间,AUC也就在这个范围内。

相关文章: