【问题标题】:stanfordnlp - Training space separated words as a single token to Stanford NER model generationstanfordnlp - 将空间分隔的单词训练为斯坦福 NER 模型生成的单个标记
【发布时间】:2016-09-18 17:59:44
【问题描述】:

我已经阅读了这里给出的详细描述-http://nlp.stanford.edu/software/crf-faq.shtml#a,关于根据 .prop 文件根据标记的输入文件训练模型。但是文章说-

You should make sure each line consists of solely content fields and tab characters. Spaces don't work. Extra tabs will cause problems.

我的文本语料库有一些空格分隔的单词,它们都组合形成一个标记而不是单个单词。例如,“莱特州立大学”是一个单一的代币,尽管莱特、州立大学和大学是单独的实体。我想用上面的令牌生成模型作为一个单一的模型。文章说生成模型的输入文件应该以制表符分隔的单词的形式给出,第一列是标记,第二列是标签。我怎样才能做到这一点?

【问题讨论】:

    标签: stanford-nlp


    【解决方案1】:

    NER 训练数据通常采用自然语言句子的形式,其中每个标记都有一个 NER 标记。您可能有 10,000 句或更多。

    例如:“他就读于莱特州立大学。”

    应该表示为:

    He   O
    attended   O
    Wright   SCHOOL
    State    SCHOOL
    University   SCHOOL
    .   O
    

    如果没有句子,而您只是有一个应以某种方式标记的字符串列表,则使用 RegexNER 更有意义。

    您可以在此处找到有关如何使用 RegexNER 的详细说明:

    http://nlp.stanford.edu/software/regexner.html

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2020-08-30
      • 1970-01-01
      • 2017-11-27
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多