stanfordnlp - 将空间分隔的单词训练为斯坦福 NER 模型生成的单个标记答案

【问题标题】：stanfordnlp - Training space separated words as a single token to Stanford NER model generationstanfordnlp - 将空间分隔的单词训练为斯坦福 NER 模型生成的单个标记
【发布时间】：2016-09-18 17:59:44
【问题描述】：

我已经阅读了这里给出的详细描述-http://nlp.stanford.edu/software/crf-faq.shtml#a，关于根据 .prop 文件根据标记的输入文件训练模型。但是文章说-

You should make sure each line consists of solely content fields and tab characters. Spaces don't work. Extra tabs will cause problems.

我的文本语料库有一些空格分隔的单词，它们都组合形成一个标记而不是单个单词。例如，“莱特州立大学”是一个单一的代币，尽管莱特、州立大学和大学是单独的实体。我想用上面的令牌生成模型作为一个单一的模型。文章说生成模型的输入文件应该以制表符分隔的单词的形式给出，第一列是标记，第二列是标签。我怎样才能做到这一点？

【问题讨论】：

标签： stanford-nlp

【解决方案1】：

NER 训练数据通常采用自然语言句子的形式，其中每个标记都有一个 NER 标记。您可能有 10,000 句或更多。

例如：“他就读于莱特州立大学。”

应该表示为：

He   O
attended   O
Wright   SCHOOL
State    SCHOOL
University   SCHOOL
.   O

如果没有句子，而您只是有一个应以某种方式标记的字符串列表，则使用 RegexNER 更有意义。

您可以在此处找到有关如何使用 RegexNER 的详细说明：

http://nlp.stanford.edu/software/regexner.html

【讨论】：