朴素贝叶斯，不是那么朴素吗？答案

【问题标题】：Naive Bayes, not so Naive?朴素贝叶斯，不是那么朴素吗？
【发布时间】：2012-11-28 21:20:26
【问题描述】：

我有一个用于查找大写字母的朴素贝叶斯分类器（使用 WEKA 实现）。

contains_A
contains_B
...
contains_Z

对于某个类别，LCD 一词几乎出现在训练数据的每个实例中。当我得到“LCD”属于该类的概率时，它类似于 0.988。赢了。

当我得到“L”的概率时，我得到一个普通的 0，而对于“LC”，我得到 0.002。既然特征是幼稚的，那么L、C和D不应该独立地对整体概率做出贡献，结果“L”有一些概率，“LC”更多，“LCD”更多吗？

同时，使用 MLP 进行相同的实验，而不是具有上述行为，它给出了 0.006、0.5 和 0.8 的百分比

所以 MLP 做了我期望朴素贝叶斯做的事情，反之亦然。我错过了什么，谁能解释一下这些结果？

【问题讨论】：

【解决方案1】：

我不熟悉 WEKA 的内部结构 - 如果您认为我说得不对，请纠正我。

当使用文本作为“特征”时，该文本将转换为二进制值向量。每个值对应一个具体的词。向量的长度等于字典的大小。

如果您的字典包含 4 个世界：LCD、VHS、HELLO、WORLD 那么例如文本 HELLO LCD 将被转换为 [1,0,1,0]。

我不知道 WEKA 如何构建它的字典，但我认为它可能会遍历示例中出现的所有单词。除非字典中出现“L”（因此出现在示例中），否则它的概率在逻辑上为 0。实际上它甚至不应该被视为特征。

实际上你无法推断特征的概率 - 你不能将它们加在一起，我认为特征之间没有这种关系。

【讨论】：

但是我没有使用单词作为特征，我使用的是字母。所以 LCD 的签名是 [0,0,1,1,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0 ,0,0,0,0]

【解决方案2】：

请注意，在文本挖掘中，如果您使用任何类型的术语加权和规范化，例如，单词（在您的情况下为字母）可能会被赋予与其实际计数不同的权重，例如tf.idf.例如，在 tf.idf 的情况下，字符计数被转换为对数刻度，出现在每个实例中的字符也可以使用 idf 规范化来惩罚。

我不确定您使用哪些选项将数据转换为 Weka 功能，但您可以在此处看到 Weka 为此类加权和标准化选项设置了参数

-T 将词频转换为 log(1+fij) 其中fij是第j个文档（实例）中单词i的频率。

-我将每个词频转换为： fij*log(文档数/包含单词 i 的文档数) 如果第 j 个文档（实例）中单词 i 的频率，则 fij

【讨论】：

【解决方案3】：

我查看了weka 文档，但没有看到支持将字母提取为特征。这意味着weka 函数可能需要空格或标点符号来分隔每个特征与相邻特征。如果是这样，那么对“L”、“C”和“D”的搜索将被解释为三个单独的单字母词，并解释为什么找不到它们。

如果您认为是这样，您可以在提取之前尝试将文本拆分为由\n 或空格分隔的单个字符。

【讨论】：

嗨。感谢您的回复。不过，这个问题现在已经过时了。然而，为了记录，我自己在做分析。 LCD 的签名是 [0,0,1,1,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0, 0,0,0,0]，然后将其馈送到网络进行训练。问题的重点是我希望 [0,0,1,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0, 0,0,0,0,0,0,0] 以获得至少一些概率，因为特征是幼稚的。就此而言，我希望 [0,0,1,0,0,1,1,0,0,0,0,1,0,0,0,1,0,0,1,0,0,1 ,0,0,0,0] 得到完全相同的概率，因为 L 和 C 存在，但同样没有。