【问题标题】:Bigram analysis and Term document MatrixBigram 分析和术语文档矩阵
【发布时间】:2017-09-12 17:12:41
【问题描述】:

我正在对我的文本语料库进行二元分析。我的特征向量是一组预定义的二元组和一元组标记。

特征向量 =(位置好,体验差,干净,不友好,整洁,优秀,美丽的地方)

我的文字:位置很好,但工作人员不友好。

清除文本:位置好不友好的工作人员。

我使用上述字典创建了一个 tdf 并清理了文本,但“位置良好”二元组没有给出“1”。 但是当我将清理后的文本更改为“位置好,员工不友好”时。 在二元分析中,单词的顺序是否重要,为什么?还是我弄乱了代码?请澄清

“糟糕的体验”“整洁”“干净”“位置好”“优秀”“美丽”“地方”“不友好”

0 0 0 0 0 0 1 -- 位置不错,但工作人员不友好。

0 0 0 1 0 0 1 -- 位置不错,但工作人员不友好。

【问题讨论】:

  • 这应该取决于您使用的模型,但通常情况下,单词的顺序确实很重要。
  • 感谢 Aramis..我正在使用朴素的贝叶斯伯努利文档模型

标签: r n-gram naivebayes text-analysis


【解决方案1】:

就我的经验而言,n-gram 中的单词顺序至关重要。您不会希望将 n-gram 的“Putin attacked”和“attacked Putin”视为相同,因为它们具有非常不同的上下文含义。

所以不,你没有弄乱代码。您可能只想对 n-gram 模型进行更多研究。一个好的开始可能是Chapter 4 in Speech and Language Processing by Jurafsky and Martin

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2018-05-04
    • 1970-01-01
    • 2015-07-26
    • 2015-10-16
    • 1970-01-01
    • 2015-05-19
    • 2018-04-29
    • 1970-01-01
    相关资源
    最近更新 更多