【发布时间】:2017-09-12 17:12:41
【问题描述】:
我正在对我的文本语料库进行二元分析。我的特征向量是一组预定义的二元组和一元组标记。
特征向量 =(位置好,体验差,干净,不友好,整洁,优秀,美丽的地方)
我的文字:位置很好,但工作人员不友好。
清除文本:位置好不友好的工作人员。
我使用上述字典创建了一个 tdf 并清理了文本,但“位置良好”二元组没有给出“1”。 但是当我将清理后的文本更改为“位置好,员工不友好”时。 在二元分析中,单词的顺序是否重要,为什么?还是我弄乱了代码?请澄清
“糟糕的体验”“整洁”“干净”“位置好”“优秀”“美丽”“地方”“不友好”
0 0 0 0 0 0 1 -- 位置不错,但工作人员不友好。
0 0 0 1 0 0 1 -- 位置不错,但工作人员不友好。
【问题讨论】:
-
这应该取决于您使用的模型,但通常情况下,单词的顺序确实很重要。
-
感谢 Aramis..我正在使用朴素的贝叶斯伯努利文档模型
标签: r n-gram naivebayes text-analysis