【发布时间】:2014-05-23 22:58:03
【问题描述】:
背景
我为我的公司建立了一个投诉管理系统。它工作正常。我有兴趣使用它包含的数据对投诉进行预测建模。我们有约 40,000 名客户,其中约 400 名客户提出了投诉。
问题
我想使用我们的投诉数据来模拟任何给定客户投诉的概率。我担心的是,给每个客户投诉概率为 0.000 的模型已经达到 99% 的准确率,因此很难改进。是否有可能建立一个有用的预测模型,就像我描述的那样,试图用如此少的数据预测如此罕见的事件?
【问题讨论】:
我为我的公司建立了一个投诉管理系统。它工作正常。我有兴趣使用它包含的数据对投诉进行预测建模。我们有约 40,000 名客户,其中约 400 名客户提出了投诉。
我想使用我们的投诉数据来模拟任何给定客户投诉的概率。我担心的是,给每个客户投诉概率为 0.000 的模型已经达到 99% 的准确率,因此很难改进。是否有可能建立一个有用的预测模型,就像我描述的那样,试图用如此少的数据预测如此罕见的事件?
【问题讨论】:
这就是为什么除了准确性之外还有其他衡量标准的原因。
这里,recall可能是你感兴趣的。为了平衡precision and recall,F1是一种流行的混合,兼顾两者。
但总的来说,避免试图将事物分解为一个数字。
这是一维结果,过于简化。在实践中,您需要详细研究错误,以避免发生系统性错误。
【讨论】: