【发布时间】:2014-10-19 18:01:11
【问题描述】:
我想使用一个由多个文件组成的语料库来训练斯坦福标注器,并将在未来进行扩展。
是否可以更新现有模型,还是每次都必须使用整个语料库进行训练?
有没有关于如何使用 API 进行培训的示例? MaxentTagger 的 JavaDoc 仅涵盖通过命令行进行的训练。
谢谢!
【问题讨论】:
标签: stanford-nlp
我想使用一个由多个文件组成的语料库来训练斯坦福标注器,并将在未来进行扩展。
是否可以更新现有模型,还是每次都必须使用整个语料库进行训练?
有没有关于如何使用 API 进行培训的示例? MaxentTagger 的 JavaDoc 仅涵盖通过命令行进行的训练。
谢谢!
【问题讨论】:
标签: stanford-nlp
目前,您每次都必须使用整个语料库进行训练。 (理论上可以使用额外数据更新模型,但目前还不存在,也不在我们的首要任务中。)
我们所有的模型训练都是从命令行进行的......实际上,从代码来看,train 方法似乎是私有的,所以您需要将其公开才能进行训练来自 API。我们应该解决这个问题。可能会尝试这样做。
如果访问级别不同,可以创建一个 TaggerConfig 然后调用这个方法:
private static void trainAndSaveModel(TaggerConfig config) throws IOException { ... }
但是,即便如此,它目前总是将其构建的标记器保存到磁盘。因此,可以通过一些返工来顺利实现这一点。
【讨论】: