【发布时间】:2013-12-06 02:43:03
【问题描述】:
我一直在网站上手动尝试 StanfordCoreNLP NER 和所有内容,例如,它们似乎依赖于非常具体/正确的英语提示来检测实体。但是,在处理网络文本时,您可能会有一些文本,例如
约翰·多伊
计算机科学助理教授
斯坦福大学
StanfordNLP 似乎有些麻烦(由于缺少介词/标点符号,将整个事物标记为一个组织)。我可以做些什么来让 NER 更好地处理这种文本(例如,对文本进行一些预处理)?
【问题讨论】:
-
但整个事情不是一个组织!我刚刚在他们的在线演示中尝试了您的示例,它正确地将“John Doe”识别为一个人,将“斯坦福大学”识别为一个组织。
-
有趣的是,我没有注意到有多个分类器,因为我使用的是默认的 7 类; 3 似乎在通用模型上表现最好。.. 有没有办法在使用 7 类的所有标签的同时仍保持 3 类和 4 类的准确性?
-
我相信他们有一个非常强大的句子注释器,您可以针对这种情况进行调整。此外,一般来说,ML 模型倾向于学习语言特征并且在不同的风格/领域表现更差。我建议使用您域中的文档训练一个新模型。
-
english.all.3class.distim.crf.ser.gz 似乎做对了。
标签: java nlp stanford-nlp named-entity-recognition named-entity-extraction