【发布时间】:2021-05-19 20:07:40
【问题描述】:
我迷失了召回值和精确召回曲线下面积之间的关系。我正在使用二进制分类器对不平衡的数据集进行分类。我用默认的sklearn python包记录了recall值和precision-recall曲线值下的面积。就我而言,1 类是稀有类,0 类是另一个类。
我训练了两个模型。第二个模型我使用过采样方法来平衡训练数据集。测试数据集从未在两个模型中被触及。这是测试数据集的记录值。
-
使用不平衡数据集进行训练。
召回率:0.629,精确召回率:0.8828
-
使用平衡数据集进行训练
召回率:0.8426,精确召回率:0.884
我的问题是:
-
为什么recall值提高了,而precision-recall曲线没有变化?
-
我能说如果我选择一个合适的阈值,第一个模型和第二个模型一样好吗?我应该关注哪个评估矩阵?
-
我可以肯定地说这个模型可以容忍不平衡的数据集,因为精确曲线下的区域变化不大?
【问题讨论】:
-
请注意,SO 是关于特定编码的问题;关于机器学习理论和方法的非编码问题在这里是题外话,应该在Cross Validated 上发布。请参阅
machine-learningtag info 中的介绍和注意。另外,问题实际上与python无关,请不要发送垃圾邮件无关标签(已删除)。
标签: machine-learning confusion-matrix precision-recall