金融风控学习task1

第一次任务就下载了数据，看了下数据都有哪些属性，根据学习资料，task1主要介绍了一些分类算法常见的评估指标。

混淆矩阵

其中有四种情况：
（1）若一个实例是正类，并且被预测为正类，即为真正类TP(True Positive )
（2）若一个实例是正类，但是被预测为负类，即为假负类FN(False Negative )
（3）若一个实例是负类，但是被预测为正类，即为假正类FP(False Positive )
（4）若一个实例是负类，并且被预测为负类，即为真负类TN(True Negative )

准确率（Accuracy）
准确率是常用的一个评价指标，但是不适合样本不均衡的情况。
精确率（Precision） 又称查准率，正确预测为正样本（TP）占预测为正样本(TP+FP)的百分比。
召回率（Recall） 又称为查全率，正确预测为正样本（TP）占正样本(TP+FN)的百分比。
F1 Score： 精确率和召回率是相互影响的，精确率升高则召回率下降，召回率升高则精确率下降，如果需要兼顾二者，就需要精确率、召回率的结合F1 Score。
P-R曲线（Precision-Recall Curve） P-R曲线是描述精确率和召回率变化的曲线
ROC（Receiver Operating Characteristic）
ROC空间将假正例率（FPR）定义为 X 轴，真正例率（TPR）定义为 Y 轴。其中，TPR：在所有实际为正例的样本中，被正确地判断为正例之比率。FPR：在所有实际为负例的样本中，被错误地判断为正例之比率。
AUC(Area Under Curve) 被定义为 ROC曲线下与坐标轴围成的面积，显然这个面积的数值不会大于1。又由于 ROC曲线一般都处于y=x这条直线的上方，所以AUC的取值范围在0.5和1之间。AUC越接近1.0，检测方法真实性越高;等于0.5时，则真实性低，无应用价值。
KS(Kolmogorov-Smirnov) K-S曲线与ROC曲线类似，不同在于： ROC曲线将真正例率和假正例率作为横纵轴； K-S曲线将真正例率和假正例率都作为纵轴，横轴则由选定的阈值来充当。

最重要的是python已经有函数自己计算出了这些值或比率，输入是真实值列表或数组以及预测值列表或数组，再分别使用函数计算出它们，具体示例如下：

金融风控学习task1

收获：了解了一些评价标准，知道了这些函数及其用法。