使用 API 训练和重新训练斯坦福标注器答案

【问题标题】：Train and retrain Stanford tagger using the API使用 API 训练和重新训练斯坦福标注器
【发布时间】：2014-10-19 18:01:11
【问题描述】：

我想使用一个由多个文件组成的语料库来训练斯坦福标注器，并将在未来进行扩展。

是否可以更新现有模型，还是每次都必须使用整个语料库进行训练？

有没有关于如何使用 API 进行培训的示例？ MaxentTagger 的 JavaDoc 仅涵盖通过命令行进行的训练。

谢谢！

【问题讨论】：

【解决方案1】：

目前，您每次都必须使用整个语料库进行训练。（理论上可以使用额外数据更新模型，但目前还不存在，也不在我们的首要任务中。）

我们所有的模型训练都是从命令行进行的......实际上，从代码来看，train 方法似乎是私有的，所以您需要将其公开才能进行训练来自 API。我们应该解决这个问题。可能会尝试这样做。

如果访问级别不同，可以创建一个 TaggerConfig 然后调用这个方法：

  private static void trainAndSaveModel(TaggerConfig config) throws IOException { ... }

但是，即便如此，它目前总是将其构建的标记器保存到磁盘。因此，可以通过一些返工来顺利实现这一点。

【讨论】：