总误差平均值是回归模型的充分性能指标吗？答案

【问题标题】：Is Total Error Mean an adequate performance metric for regression models?总误差平均值是回归模型的充分性能指标吗？
【发布时间】：2019-08-21 06:48:12
【问题描述】：

我正在研究回归模型并评估模型性能，我的老板认为我们应该使用这个指标：

总绝对误差平均值 = mean(y_predicted) / mean(y_true) - 1

其中 mean(y_predicted) 是所有预测的平均值，mean(y_true) 是所有真实值的平均值。

我以前从未见过在机器学习中使用过这个指标，我说服他添加平均绝对百分比误差作为替代方案，尽管我的模型在 MAPE 方面表现更好，但当我们查看总绝对误差时，某些领域表现不佳平均值。

我的直觉是这个指标在显示真实准确性方面是错误的，但我似乎无法理解为什么。

总绝对误差平均值是一个有效的性能指标吗？如果不是，那为什么？如果是，为什么回归模型的准确度会在 MAPE 方面提高，但在总绝对误差均值方面却不提高？

提前谢谢你！

【问题讨论】：

我真的在质疑总绝对误差平均值的公式。你有任何来源或你是如何得出的？在我看来，单独计算预测的平均值并没有多大意义。通常你会计算差异的平均值（y_predicted - y_true）。该指标也称为平均绝对误差，是最基本的指标之一。
编辑了我的原始问题 - 它们不是单个值，而是值列表 - 该公式将 y_true 的平均值与 y_predicted 的平均值进行比较。这个公式是他在我开始工作之前为他的模型测量的东西，所以我猜这是他的想法。
我已经将其视为一个值列表，但我不认为进行总体平均有什么意义。我会改为使用更经典的 MAE 损失函数。
我同意，但我如何说服我的老板放弃这个指标？为什么在 MAE 旁边使用总平均值作为支持指标毫无意义？

标签： machine-learning statistics regression metrics

【解决方案1】：

我建议您通知您的老板，当一个人希望引入一个新指标时，他/她有责任证明它为什么在现有指标之上有用，而不是其他方式（即我们证明为什么不是）；顺便说一句，当有人真正在研究论文中提出新的提议指标时，这正是标准程序，比如最近提出的Maximal Information Coefficient (MIC)。

也就是说，在实践中不难证明这个提议的指标是一个差的指标，其中包含一些虚拟数据：

import numpy as np
from sklearn.metrics import mean_squared_error

# your proposed metric:
def taem(y_true, y_pred):
    return np.mean(y_true)/np.mean(y_pred)-1

# dummy true data:
y_true = np.array([0,1,2,3,4,5,6])

现在，假设我们有一个非常棒的模型，它可以完美地预测，即y_pred1 = y_true；在这种情况下，MSE 和您提议的 TAEM 都确实为 0：

y_pred1 = y_true # PERFECT predictions
mean_squared_error(y_true, y_pred1)
# 0.0
taem(y_true, y_pred1)
# 0.0

到目前为止一切顺利。但是现在让我们考虑一个非常糟糕模型的输出，它在应该预测低值时预测高值，反之亦然；换句话说，考虑一组不同的预测：

y_pred2 = np.array([6,5,4,3,2,1,0])

实际上是 y_pred1 的倒序。现在，很容易看出，在这里我们也会有一个完美的 TAEM 分数：

taem(y_true, y_pred2)
# 0.0

当然，MSE 会警告我们，我们确实离完美的预测还很远：

mean_squared_error(y_true, y_pred2)
# 16.0

底线：任何忽略元素差异而只支持平均值的指标都会受到类似的限制，即对预测的任何排列取相同的值，a对于有用的性能指标而言，这是非常不受欢迎的特征。

【讨论】：

“当一个人希望引入一个新指标时，他/她有责任证明它为什么在现有指标之上有用，而不是相反”。这些正是我的想法！非常感谢，我会考虑一个好的方法向他解释！