最大熵模型和逻辑回归答案

【问题标题】：maximum entropy model and logistic regression最大熵模型和逻辑回归
【发布时间】：2014-02-10 01:42:58
【问题描述】：

我正在做一个需要做一些自然语言处理的项目。我为此目的使用stanford MaxEnt Classifier。但是我不确定最大熵模型和逻辑回归是同时还是某种特殊的逻辑回归？

谁能解释一下？

【问题讨论】：

最大熵与多项逻辑回归相同
有时也称为对数线性模型
@NLPer，所以 MaxEnt 和 Softmax 一样吗？

标签： machine-learning nlp stanford-nlp logistic-regression

【解决方案1】：

这是完全相同的模型。 NLP 社会更喜欢使用最大熵这个名称，并使用稀疏公式，它允许在不直接投影到 R^n 空间的情况下计算所有内容（因为 NLP 通常具有大量特征和非常稀疏的向量）。

【讨论】：

【解决方案2】：

在最大熵中，特征用 f(x,y) 表示，这意味着您可以使用标签 y 和可观察特征 x 来设计特征，而如果 f(x,y) = x 它是逻辑回归中的情况。
在像POS这样的NLP任务中，设计特征的组合标签是很常见的。例如：当前单词以“ous”结尾，下一个单词是名词。可以预测当前单词是否是可调整的特征

【讨论】：

对于每个“类相关”特征，存在用于逻辑回归的等效类无关特征集。它只是关于稀疏性。
运行最大熵分类器后，给每个类的每个特征的权重，然后如何找出哪些是最好的特征，从而去除其他特征。 @lejlot
@AmrithKrishna ，每个特征的权重绝对值表明该特征的重要性
@michaeltang 同意，但我为每个功能获得 5 个权重（每类）。我应该找到什么相关功能

【解决方案3】：

您可能想阅读这篇文章中的附件，它给出了一个简单的推导： http://www.win-vector.com/blog/2011/09/the-equivalence-of-logistic-regression-and-maximum-entropy-models/

引自 Daniel Jurafsky 和 James H. Martin 的“Speech and Language Processing”的解释。

每个特征都是一个指示函数，它挑选出训练观察的一个子集。对于每个特征，我们在总分布上添加一个约束，指定这个子集的分布应该与我们在训练数据中看到的经验分布相匹配。然后我们选择符合这些约束的最大熵分布。

伯杰等人。 (1996) 表明，这个优化问题的解决方案恰好是多项逻辑回归模型的概率分布，其权重 W 使训练数据的可能性最大化！

【讨论】：