【问题标题】:Adapting StanfordCoreNLP to process noisy web text?调整 StanfordCoreNLP 来处理嘈杂的网络文本?
【发布时间】:2013-12-06 02:43:03
【问题描述】:

我一直在网站上手动尝试 StanfordCoreNLP NER 和所有内容,例如,它们似乎依赖于非常具体/正确的英语提示来检测实体。但是,在处理网络文本时,您可能会有一些文本,例如


约翰·多伊

计算机科学助理教授

斯坦福大学


StanfordNLP 似乎有些麻烦(由于缺少介词/标点符号,将整个事物标记为一个组织)。我可以做些什么来让 NER 更好地处理这种文本(例如,对文本进行一些预处理)?

【问题讨论】:

  • 但整个事情不是一个组织!我刚刚在他们的在线演示中尝试了您的示例,它正确地将“John Doe”识别为一个人,将“斯坦福大学”识别为一个组织。
  • 有趣的是,我没有注意到有多个分类器,因为我使用的是默认的 7 类; 3 似乎在通用模型上表现最好。.. 有没有办法在使用 7 类的所有标签的同时仍保持 3 类和 4 类的准确性?
  • 我相信他们有一个非常强大的句子注释器,您可以针对这种情况进行调整。此外,一般来说,ML 模型倾向于学习语言特征并且在不同的风格/领域表现更差。我建议使用您域中的文档训练一个新模型。
  • english.all.3class.distim.crf.ser.gz 似乎做对了。

标签: java nlp stanford-nlp named-entity-recognition named-entity-extraction


【解决方案1】:

在每行末尾添加点(.) 可以得到更好的结果。 (由于分句器使用点作为分隔符)

【讨论】:

    猜你喜欢
    • 2014-09-26
    • 1970-01-01
    • 2016-03-07
    • 1970-01-01
    • 2017-02-21
    • 2013-05-04
    • 2022-06-17
    • 2011-07-14
    • 2022-01-05
    相关资源
    最近更新 更多