【问题标题】:Can someone explain the syntax of BigramAssocMeasures.chi_sq?有人可以解释 BigramAssocMeasures.chi_sq 的语法吗?
【发布时间】:2015-09-13 11:55:24
【问题描述】:

我正在使用 NLTK 的 BigramAssocMeasures.chi_sq 来找出不同类别的单词提供的信息内容。但是我无法弄清楚如何向这个函数提供数据。

NLTK 的定义说 """使用卡方对二元组进行评分,即 phi-sq 乘以二元组的数量,如 Manning 和 Schutze 5.3.3 中所示。 """ 返回 n_xx * cls.phi_sq(n_ii, (n_ix, n_xi), n_xx)

n_ii, (n_ix, n_xi), n_xx 代表什么?

【问题讨论】:

    标签: python nltk chi-squared


    【解决方案1】:

    我找到了以下解释来源:

    第一个来源解释了该主题及其在情感分析中的应用以及 Python 代码。第二个来源提供了更多的代码示例。第三个来源包含您想要的解释:

    参数构成列联表的边缘, 计算语料库中特定事件的发生次数。信 后缀中的 i 是指所讨论的单词 w 的出现, 而 x 表示任何单词的出现。因此,例如::

    n_ii counts (w1, w2), i.e. the bigram being scored
    n_ix counts (w1, *)
    n_xi counts (*, w2)
    n_xx counts (*, *), i.e. any bigram
    

    这可以相对于列联表显示::

            w1    ~w1
         ------ ------
     w2 | n_ii | n_oi | = n_xi
         ------ ------
    ~w2 | n_io | n_oo |
         ------ ------
         = n_ix        TOTAL = n_xx
    

    我希望这项研究有所帮助。

    【讨论】:

      猜你喜欢
      • 2011-03-17
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2019-01-07
      • 1970-01-01
      • 2020-04-20
      • 2011-03-10
      相关资源
      最近更新 更多