稀疏数据的逻辑回归答案

【问题标题】：logistic regression on sparse data稀疏数据的逻辑回归
【发布时间】：2014-03-04 19:40:31
【问题描述】：

我正在使用逻辑回归模型进行一些预测分析。我们有大约 25 个预测变量和 1 个二元结果 (Y/N) 变量。我正在模拟结果为“Y”的概率。

我的训练数据集中有 400,000 条记录，而评分集中有相同的数字。训练集中出现“Y”的概率为 0.1%。 SAS输出的模型C统计量为0.97，非常好。

当我在我的评分集上运行模型时，我的“阳性预测值”（即正确识别的“Y”与总“Y”的比率）小于 1，这使得我的模型毫无用处。谁能建议我如何提高阳性预测值？

【问题讨论】：

您需要不同的数据。你可以把你的数据发给我，我可以猜出每个数据点的 N 个值，而且 99.9% 的时间我都是正确的。
这个问题并不适合 Stack Overflow。它更适合Cross Validated，因为它不是关于统计模型的构建，而不是编程。如果您对这个问题的意图是 SAS 编程，我建议您包含代码并阐明您的意图。
我认为这个比率应该小于一。大于一意味着您预测的 Y 比实际存在的要多，这显然是错误的。你的意思是小于 0.01 还是别的什么？

【解决方案1】：

假设您的预测值低于您希望的值，这意味着您的模型具有高方差（它在训练集中预测良好，但在验证集中预测不佳），您应该考虑一些基本选项：

增加模型的复杂性。您的模型可能对数据不够复杂。添加更多预测变量，或预测变量的组合，或多项式变量。
增加训练示例的数量。您的训练示例可能不够复杂，无法证明您的模型。一个典型的比例是 60% 训练 - 20% 验证 - 20% 测试； 50%-50% 可能不够（虽然 400,000 通常就足够了，谁知道呢）。
也许您的训练示例和验证集并不是真正随机的总体样本。例如，如果训练集是 2011 年的数据，而验证集是 2012 年的数据，那么您的模型可能没有考虑到某些年份的变化。

【讨论】：

【解决方案2】：

由于高度偏斜的值，您的算法的召回率非常低，因此您对逻辑回归的召回率（算法的敏感率低），我想您可以为正例错误分类的错误率设置非常高的成本反面例子的成本也不高。希望有帮助！！！

【讨论】：