1、基于朴素贝叶斯的评论分类
(1)评论的预处理
由于评论是一句话,所以这里我们采用jieba函数将评论进行分词,包括以下几点处理:
①加入专有的词汇,如公司名字、地名、人名、专有词汇(如工资:10k,数字等等)等等让jieba更好的分词
②去掉停用词
③去掉一些特殊符号
(2)朴素贝叶斯的原理
是第i个类别的第j个词,v代表全部的词空间,代表第i个评论中第j个词在所有样本中出现的次数。
根据算出的θ矩阵和,对每一个新来的样本采用似然估计的方式来计算概率。
为第k个文档中第j个单词的出现次数/所有单词的总数
相关文章: