【发布时间】:2017-04-29 03:21:26
【问题描述】:
在使用 ApacheOpenNlp 为泰语等语言创建模型时,最好是进行标记化并使用标记化的语料库来训练 MxentModel,还是应该使用未标记化的句子。
【问题讨论】:
在使用 ApacheOpenNlp 为泰语等语言创建模型时,最好是进行标记化并使用标记化的语料库来训练 MxentModel,还是应该使用未标记化的句子。
【问题讨论】:
是的,您应该标记您的训练语料库,并在运行时标记您的句子。
例如,如果您有一个 Name Finder 训练语料库,那么使用相同的语料库训练分词器很容易。从命令行你可以运行
sh bin/opennlp TokenizerTrainer.namefinder
它会从名称查找器语料库中训练分词器。
更新: 这个answer 解释了如何使用旧的泰国模型。
【讨论】: