【发布时间】:2015-07-17 00:39:48
【问题描述】:
我熟悉机器学习和朴素贝叶斯,但在我的特征向量是一个词袋的文档分类中,我很难理解如何实现它。
特别是,您如何计算类条件特征似然Pr(word | class)?在许多文本中,我看到以下术语:
右侧是如何实现的?是 c 类中出现特征 f 的文档数除以 c 类文档数吗?
例如,假设您有 10 个文档,其中 7 个是 C1 类,3 个是 C2 类。其中一些出现了“惊人”这个词:
C1: ...
C1: ... amazing ...
C1: ...
C1: ... amazing ...
C1: ... amazing ...
C1: ...
C1: ...
C2: ...
C2: ... amazing ...
C2: ...
看起来像:
- 计数(惊人的,C1)= 3
- 计数(惊人,C2)= 1
- 计数(C1) = 7
- 计数(C2) = 3
Pr(amazing|C1) = 3/7 和 Pr(amazing|C2) = 1/3 吗?
2015 年 5 月 7 日编辑
我在“Introduction to Information Retrieval”一书的第 13 章 (PDF) 中遇到了关于用于文本分类的朴素贝叶斯的讨论。类条件特征概率有不同的表述:
所以,这里的 count(word, class) 看起来是类中文档中 words 的总出现次数,而不是类中文档的数量。
同样,count(class) 是类中文档中单词的总数,而不是类中的文档数。
P(feature|class) 的哪个公式是首选?
【问题讨论】:
-
您的两个问题的答案都是肯定的。
标签: machine-learning nlp classification naivebayes