【问题标题】:Naive Bayes, not so Naive?朴素贝叶斯,不是那么朴素吗?
【发布时间】:2012-11-28 21:20:26
【问题描述】:

我有一个用于查找大写字母的朴素贝叶斯分类器(使用 WEKA 实现)。

contains_A
contains_B
...
contains_Z

对于某个类别,LCD 一词几乎出现在训练数据的每个实例中。当我得到“LCD”属于该类的概率时,它类似于 0.988。赢了。

当我得到“L”的概率时,我得到一个普通的 0,而对于“LC”,我得到 0.002。既然特征是幼稚的,那么L、C和D不应该独立地对整体概率做出贡献,结果“L”有一些概率,“LC”更多,“LCD”更多吗?

同时,使用 MLP 进行相同的实验,而不是具有上述行为,它给出了 0.006、0.5 和 0.8 的百分比

所以 MLP 做了我期望朴素贝叶斯做的事情,反之亦然。我错过了什么,谁能解释一下这些结果?

【问题讨论】:

  • 你的训练集是由字母还是单词组成的?您要分类多少类?
  • 训练集由单词或小短语组成。大约有 50 个班级。

标签: machine-learning neural-network classification weka naivebayes


【解决方案1】:

我不熟悉 WEKA 的内部结构 - 如果您认为我说得不对,请纠正我。

当使用文本作为“特征”时,该文本将转换为二进制值向量。每个值对应一个具体的词。向量的长度等于字典的大小。

如果您的字典包含 4 个世界:LCD、VHS、HELLO、WORLD 那么例如文本 HELLO LCD 将被转换为 [1,0,1,0]。

我不知道 WEKA 如何构建它的字典,但我认为它可能会遍历示例中出现的所有单词。除非字典中出现“L”(因此出现在示例中),否则它的概率在逻辑上为 0。实际上它甚至不应该被视为特征。

实际上你无法推断特征的概率 - 你不能将它们加在一起,我认为特征之间没有这种关系。

【讨论】:

  • 但是我没有使用单词作为特征,我使用的是字母。所以 LCD 的签名是 [0,0,1,1,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0 ,0,0,0,0]
【解决方案2】:

请注意,在文本挖掘中,如果您使用任何类型的术语加权和规范化,例如,单词(在您的情况下为字母)可能会被赋予与其实际计数不同的权重,例如tf.idf.例如,在 tf.idf 的情况下,字符计数被转换为对数刻度,出现在每个实例中的字符也可以使用 idf 规范化来惩罚。

我不确定您使用哪些选项将数据转换为 Weka 功能,但您可以在此处看到 Weka 为此类加权和标准化选项设置了参数

http://weka.sourceforge.net/doc.dev/weka/filters/unsupervised/attribute/StringToWordVector.html

-T 将词频转换为 log(1+fij) 其中fij是第j个文档(实例)中单词i的频率。

-我 将每个词频转换为: fij*log(文档数/包含单词 i 的文档数) 如果第 j 个文档(实例)中单词 i 的频率,则 fij

【讨论】:

    【解决方案3】:

    我查看了weka 文档,但没有看到支持将字母提取为特征。这意味着weka 函数可能需要空格或标点符号来分隔每个特征与相邻特征。如果是这样,那么对“L”、“C”和“D”的搜索将被解释为三个单独的单字母词,并解释为什么找不到它们。

    如果您认为是这样,您可以在提取之前尝试将文本拆分为由\n 或空格分隔的单个字符。

    【讨论】:

    • 嗨。感谢您的回复。不过,这个问题现在已经过时了。然而,为了记录,我自己在做分析。 LCD 的签名是 [0,0,1,1,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0, 0,0,0,0],然后将其馈送到网络进行训练。问题的重点是我希望 [0,0,1,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0, 0,0,0,0,0,0,0] 以获得至少一些概率,因为特征是幼稚的。就此而言,我希望 [0,0,1,0,0,1,1,0,0,0,0,1,0,0,0,1,0,0,1,0,0,1 ,0,0,0,0] 得到完全相同的概率,因为 L 和 C 存在,但同样没有。
    猜你喜欢
    • 2012-02-21
    • 2011-12-28
    • 2012-05-23
    • 2019-09-28
    • 2017-02-18
    • 2013-09-09
    • 2015-01-03
    • 2017-02-09
    • 2018-02-14
    相关资源
    最近更新 更多