【发布时间】:2018-02-27 07:05:28
【问题描述】:
我一直在官网(和pdf手册)中搜索giza++短语表输出中数字的含义: http://www.statmt.org/moses/?n=FactoredTraining.ScorePhrases
这就是我的想法。
假设这是短语表中的一行
načiniti na koji ||| way in which ||| 0.833333 * 0.33333 * ||| * ||| 12 3 1
意思是:
e = "načiniti na koji"
f = "way in which"
count(e) = 12
count(f) = 3
count(e, f) = 1
p(f|e) = count(f, e) / count(e) = 1/12 = 0.833333
p(e|f) = count(f, e) / count(f) = 1/3 = 0.333333
这些都说得通。
但是,如果我使用文本编辑器进行文本搜索,我会得到:
count("načiniti na koji") = 4
count("way in which") = 9
即完全不同的数字。
还有一个奇怪的地方是:
osnivanje i ||| the ||| 0.000124085 * 1 * ||| 0-0 ||| 8059 1 1
所以,考虑到官网的解释,
count("the) = 1,
和
count("osnivanje i") = 8059.
一种解释可能是正好相反。
但是,真正的 count("the") 是 21466。
还有其他一些教程/手册可以更好地阐明 giza++ 输出文件的内容吗?
【问题讨论】:
标签: machine-translation moses giza++