调整 StanfordCoreNLP 来处理嘈杂的网络文本？答案

【问题标题】：Adapting StanfordCoreNLP to process noisy web text?调整 StanfordCoreNLP 来处理嘈杂的网络文本？
【发布时间】：2013-12-06 02:43:03
【问题描述】：

我一直在网站上手动尝试 StanfordCoreNLP NER 和所有内容，例如，它们似乎依赖于非常具体/正确的英语提示来检测实体。但是，在处理网络文本时，您可能会有一些文本，例如

约翰·多伊

计算机科学助理教授

斯坦福大学

StanfordNLP 似乎有些麻烦（由于缺少介词/标点符号，将整个事物标记为一个组织）。我可以做些什么来让 NER 更好地处理这种文本（例如，对文本进行一些预处理）？

【问题讨论】：

但整个事情不是一个组织！我刚刚在他们的在线演示中尝试了您的示例，它正确地将“John Doe”识别为一个人，将“斯坦福大学”识别为一个组织。
有趣的是，我没有注意到有多个分类器，因为我使用的是默认的 7 类； 3 似乎在通用模型上表现最好。.. 有没有办法在使用 7 类的所有标签的同时仍保持 3 类和 4 类的准确性？
我相信他们有一个非常强大的句子注释器，您可以针对这种情况进行调整。此外，一般来说，ML 模型倾向于学习语言特征并且在不同的风格/领域表现更差。我建议使用您域中的文档训练一个新模型。
english.all.3class.distim.crf.ser.gz 似乎做对了。

【解决方案1】：

在每行末尾添加点(.) 可以得到更好的结果。（由于分句器使用点作为分隔符）

【讨论】：