Bigram 分析和术语文档矩阵答案

【问题标题】：Bigram analysis and Term document MatrixBigram 分析和术语文档矩阵
【发布时间】：2017-09-12 17:12:41
【问题描述】：

我正在对我的文本语料库进行二元分析。我的特征向量是一组预定义的二元组和一元组标记。

特征向量 =（位置好，体验差，干净，不友好，整洁，优秀，美丽的地方）

我的文字：位置很好，但工作人员不友好。

清除文本：位置好不友好的工作人员。

我使用上述字典创建了一个 tdf 并清理了文本，但“位置良好”二元组没有给出“1”。但是当我将清理后的文本更改为“位置好，员工不友好”时。在二元分析中，单词的顺序是否重要，为什么？还是我弄乱了代码？请澄清

“糟糕的体验”“整洁”“干净”“位置好”“优秀”“美丽”“地方”“不友好”

0 0 0 0 0 0 1 -- 位置不错，但工作人员不友好。

0 0 0 1 0 0 1 -- 位置不错，但工作人员不友好。

【问题讨论】：

【解决方案1】：

就我的经验而言，n-gram 中的单词顺序至关重要。您不会希望将 n-gram 的“Putin attacked”和“attacked Putin”视为相同，因为它们具有非常不同的上下文含义。

所以不，你没有弄乱代码。您可能只想对 n-gram 模型进行更多研究。一个好的开始可能是Chapter 4 in Speech and Language Processing by Jurafsky and Martin

【讨论】：