【发布时间】:2012-11-28 21:20:26
【问题描述】:
我有一个用于查找大写字母的朴素贝叶斯分类器(使用 WEKA 实现)。
contains_A
contains_B
...
contains_Z
对于某个类别,LCD 一词几乎出现在训练数据的每个实例中。当我得到“LCD”属于该类的概率时,它类似于 0.988。赢了。
当我得到“L”的概率时,我得到一个普通的 0,而对于“LC”,我得到 0.002。既然特征是幼稚的,那么L、C和D不应该独立地对整体概率做出贡献,结果“L”有一些概率,“LC”更多,“LCD”更多吗?
同时,使用 MLP 进行相同的实验,而不是具有上述行为,它给出了 0.006、0.5 和 0.8 的百分比
所以 MLP 做了我期望朴素贝叶斯做的事情,反之亦然。我错过了什么,谁能解释一下这些结果?
【问题讨论】:
-
你的训练集是由字母还是单词组成的?您要分类多少类?
-
训练集由单词或小短语组成。大约有 50 个班级。
标签: machine-learning neural-network classification weka naivebayes