【问题标题】:Train and retrain Stanford tagger using the API使用 API 训练和重新训练斯坦福标注器
【发布时间】:2014-10-19 18:01:11
【问题描述】:

我想使用一个由多个文件组成的语料库来训练斯坦福标注器,并将在未来进行扩展。

是否可以更新现有模型,还是每次都必须使用整个语料库进行训练?

有没有关于如何使用 API 进行培训的示例? MaxentTagger 的 JavaDoc 仅涵盖通过命令行进行的训练。

谢谢!

【问题讨论】:

    标签: stanford-nlp


    【解决方案1】:

    目前,您每次都必须使用整个语料库进行训练。 (理论上可以使用额外数据更新模型,但目前还不存在,也不在我们的首要任务中。)

    我们所有的模型训练都是从命令行进行的......实际上,从代码来看,train 方法似乎是私有的,所以您需要将其公开才能进行训练来自 API。我们应该解决这个问题。可能会尝试这样做。

    如果访问级别不同,可以创建一个 TaggerConfig 然后调用这个方法:

      private static void trainAndSaveModel(TaggerConfig config) throws IOException { ... }
    

    但是,即便如此,它目前总是将其构建的标记器保存到磁盘。因此,可以通过一些返工来顺利实现这一点。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2017-11-27
      • 1970-01-01
      • 1970-01-01
      • 2023-03-22
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多