【问题标题】:What do the counts in giza++ phrase-table mean?giza++ 短语表中的计数是什么意思?
【发布时间】:2018-02-27 07:05:28
【问题描述】:

我一直在官网(和pdf手册)中搜索giza++短语表输出中数字的含义: http://www.statmt.org/moses/?n=FactoredTraining.ScorePhrases

这就是我的想法。

假设这是短语表中的一行

načiniti na koji ||| way in which ||| 0.833333 * 0.33333 * ||| * ||| 12 3 1

意思是:

e = "načiniti na koji"
f = "way in which"

count(e) = 12
count(f) = 3
count(e, f) = 1

p(f|e) = count(f, e) / count(e) = 1/12 = 0.833333
p(e|f) = count(f, e) / count(f) = 1/3 = 0.333333

这些都说得通。

但是,如果我使用文本编辑器进行文本搜索,我会得到:

count("načiniti na koji") = 4
count("way in which") = 9

即完全不同的数字。

还有一个奇怪的地方是:

osnivanje i ||| the ||| 0.000124085 * 1 * ||| 0-0 ||| 8059 1 1

所以,考虑到官网的解释,

count("the) = 1,

count("osnivanje i") = 8059.

一种解释可能是正好相反。

但是,真正的 count("the") 是 21466。

还有其他一些教程/手册可以更好地阐明 giza++ 输出文件的内容吗?

【问题讨论】:

    标签: machine-translation moses giza++


    【解决方案1】:

    所以,我想应该是这样的:

    • 吉萨贯穿平行语料库

    • 每当两个短语对齐时,它们就会被刷新到文本文件中,我们将其命名为 f_phrases

    符号可能是:

    e - 外国吉萨会员

    f - 英语吉萨会员

    完成后,f_phrases 进行两种排序,这样我们就得到了两个表格文件

    1. extract.o.sorted

    对对进行排序,以便某个外语短语 (e) 的所有英文翻译彼此相邻,例如

    analiza i      analysis and
    analiza i      analysis and
    analiza i      analysis and
    analiza i      analysis and
    analiza i      analysis and
    analiza i      analysis and
    analiza i      analysis and
    analiza i      analysis and
    analiza i      analysis and
    analiza i      analysis and
    analiza i      analysis and
    analiza i      analysis and
    analiza i      analysis and
    analiza i      and
    analiza i      evaluation and
    analiza i      the analysis and
    analiza i      through evaluation and
    

    因此我们得出结论

    count(e) = count("analiza i") = 17

    然后,对对进行排序,以便某个母语短语 (f) 的所有外语翻译彼此相邻,例如

    1. extract.inv.sorted
    analysis and              Analysis and
    analysis and              analiza i
    analysis and              analiza i
    analysis and              analiza i
    analysis and              analiza i
    analysis and              analiza i
    analysis and              analiza i
    analysis and              analiza i
    analysis and              analiza i
    analysis and              analiza i
    analysis and              analiza i
    analysis and              analiza i
    analysis and              analiza i
    analysis and              analiza i
    

    我们看到count(f) = count("analysis and") = 14

    考虑到是同一张表,只是以其他方式排序,我们看到count("analysis and", "analiza i") = count("analiza i", "analysis and") = 17

    生成的短语表如下所示:

    analiza i|||analysis and|||     14      |||             17|||               13
    
    e       ||| f        ||| count(f) ||| count(e)   ||| count(e, f) = count(f, e)
    

    当计算条件概率时,使用相反的顺序,因为顺序在短语表中:

    p(e|f) = p(e, f) / p(f) phrase translation probability 
    p(f|e) = p(f, e) / p(e) inverse phrase translation probability 
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2012-06-24
      • 2013-11-02
      • 2023-04-10
      • 2013-10-13
      • 1970-01-01
      • 1970-01-01
      • 2011-11-18
      • 1970-01-01
      相关资源
      最近更新 更多