【发布时间】:2012-09-05 12:39:42
【问题描述】:
这是我关于stackoverflow的第一个问题,请多多包涵。
我正在做一些语料库建设,特别是尝试编写高棉语/英语平行句子语料库。我正在使用一些手动配对的句子来训练最大熵分类器,它将从我的并行文档语料库中选择更多的并行句子对。
我的问题是我几乎没有人工注释的训练数据来训练分类器。因此,它不是一个很好的分类器。因此,我的老师建议我查看 MaxEnt 分类器的原始分数,看看是否存在某个分数阈值,高于该阈值人类判断会发现分类为翻译的句子对实际上是彼此的翻译。
但是,我使用的是 NLTK 的 MaxEnt 分类器,我找不到一个函数可以为我提供分类器用来决定是或否的原始分数。
NLTK 的 MaxEnt 分类器有这个功能,还是没有办法找出分类器的原始分数?是否有具有更好 MaxEnt 分类器的软件包可以为您提供我应该使用的原始分数?
提前感谢您的帮助和建议!
【问题讨论】:
标签: python machine-learning nltk classification