朴素贝叶斯和逻辑回归错误率答案

【问题标题】：Naive Bayes and Logistic Regression Error Rate朴素贝叶斯和逻辑回归错误率
【发布时间】：2013-10-08 09:03:47
【问题描述】：

我一直试图找出这两个模型中错误率和特征数量之间的相关性。我看了一些视频，视频的创建者说，一个简单的模型可以比一个复杂的模型更好。所以我认为我拥有的功能越多，错误率就越高。这在我的工作中并没有被证明是正确的，当我的特征越少时，错误率就会上升。我不确定我这样做是否不正确，或者视频中的那个人是否犯了错误。有人可以解释一下吗？我也很好奇特征与逻辑回归的错误率有何关系。

【问题讨论】：

这不是编程问题； stats.stackexchange.com 更合适。
说，“一个简单的模型可以比一个复杂的模型更好”并不意味着一个简单的模型总是优于一个复杂的模型；有一个权衡。否则，常数预测器将是最好的模型，并且不会有机器学习这样的领域。
谢谢，从现在开始我会在那里问我的问题。
如果事件空间相同，逻辑回归分类器的复杂度与朴素贝叶斯分类器相同——它们形成生成/判别对，并且具有相同形式的分类规则。见ai.stanford.edu/~ang/papers/nips01-discriminativegenerative.pdf

标签： machine-learning

【解决方案1】：

朴素贝叶斯和逻辑回归是“生成-判别对”，这意味着它们具有相同的模型形式（线性分类器），但它们以不同的方式估计参数。

对于特征 x 和标签 y，朴素贝叶斯根据训练数据估计联合概率 p(x,y) = p(y)*p(x|y)（即构建一个可以“生成”数据的模型），并使用贝叶斯规则来预测新测试实例的 p(y|x)。另一方面，逻辑回归通过最小化误差函数（更具“判别性”）直接从训练数据估计 p(y|x)。

这些差异对错误率有影响：

当训练实例很少时，逻辑回归可能会“过拟合”，因为没有足够的数据来可靠地估计 p(y|x)。朴素贝叶斯可能会做得更好，因为它对整个联合分布进行建模。
当特征集很大（并且稀疏，如文本分类中的单词特征）时，朴素贝叶斯可能会“重复计算”彼此相关的特征，因为它假设每个 p(x|y) 事件是独立的，当他们不是。通过在这些相关特征之间自然地“划分差异”，逻辑回归可以做得更好。

如果特征真的（大部分）条件独立，那么只要有足够的数据实例，两个模型实际上可能会随着越来越多的特征而改进。当训练集大小相对于特征数量较小时，就会出现问题。朴素贝叶斯特征参数的先验，或逻辑回归的正则化方法（如 L1/Lasso 或 L2/Ridge）在这些情况下会有所帮助。

【讨论】：

请注意，NB 参数的先验与 LR 中的正则化作用相同——事实上，可以将正则化解释为 LR 参数的先验。