【发布时间】:2016-09-18 17:59:44
【问题描述】:
我已经阅读了这里给出的详细描述-http://nlp.stanford.edu/software/crf-faq.shtml#a,关于根据 .prop 文件根据标记的输入文件训练模型。但是文章说-
You should make sure each line consists of solely content fields and tab characters. Spaces don't work. Extra tabs will cause problems.
我的文本语料库有一些空格分隔的单词,它们都组合形成一个标记而不是单个单词。例如,“莱特州立大学”是一个单一的代币,尽管莱特、州立大学和大学是单独的实体。我想用上面的令牌生成模型作为一个单一的模型。文章说生成模型的输入文件应该以制表符分隔的单词的形式给出,第一列是标记,第二列是标签。我怎样才能做到这一点?
【问题讨论】:
标签: stanford-nlp