【问题标题】:Training Stanford POS tagger using multiple text files使用多个文本文件训练斯坦福 POS 标注器
【发布时间】:2017-02-28 15:50:02
【问题描述】:

我有一个大约 20000 个文本文件的语料库,我想使用这些文本文件训练标注器,最好将这些文本文件分组到一个文本文件中(我不知道这是否会影响标注准确性或不)还是将所有这些文本文件都包含在 props 文件中?

【问题讨论】:

    标签: nlp stanford-nlp part-of-speech


    【解决方案1】:

    我认为这不重要。代码应该只加载所有数据,如果您将其拆分为多个文件,这只是为了方便。此外,您可以为不同的文件指定不同的输入格式,但这不会影响最终模型。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2018-12-04
      • 1970-01-01
      相关资源
      最近更新 更多