泰语 Maxent 模型生成

【问题标题】：Thai Language Maxent Model Generation泰语 Maxent 模型生成
【发布时间】：2017-04-29 03:21:26
【问题描述】：

在使用 ApacheOpenNlp 为泰语等语言创建模型时，最好是进行标记化并使用标记化的语料库来训练 MxentModel，还是应该使用未标记化的句子。

【问题讨论】：

【解决方案1】：

是的，您应该标记您的训练语料库，并在运行时标记您的句子。

例如，如果您有一个 Name Finder 训练语料库，那么使用相同的语料库训练分词器很容易。从命令行你可以运行

sh bin/opennlp TokenizerTrainer.namefinder

它会从名称查找器语料库中训练分词器。

更新： 这个answer 解释了如何使用旧的泰国模型。

【讨论】：