【问题标题】:NLTK NER: Continuous LearningNLTK NER:持续学习
【发布时间】:2014-06-24 16:55:35
【问题描述】:

我一直在尝试使用 NLTK 的 NER 功能。我想从文章中提取这些实体。我知道这样做并不完美,但我想知道在手动标记 NE 之间是否有人为干预,会有所改善吗?

如果是,NLTK 中的现有模型是否可以持续训练模型。 (半监督训练)

【问题讨论】:

  • 简短回答,并非如此。 =)
  • 您知道其他支持持续培训的工具吗?
  • 抱歉,我不知道NLTK 中的任何内容,但可以肯定的是,它不支持手动注释,直到有人自愿为brat 编写brat 的GUI 包装器@。 NLP 中的人机交互总是很难编码,因为它通常需要某种 GUI。

标签: nlp nltk named-entity-recognition reinforcement-learning


【解决方案1】:

nltk 中提供的普通 NER 分块器在内部使用了在 ACE 语料库上训练的最大熵分块器。因此,无法识别日期或时间,除非您使用自己的分类器和数据对其进行训练(这是一项非常细致的工作)。

您可以参考此link 来执行相同的操作。

此外,在 nltk_contrib 中有一个名为 timex 的模块,它可能会帮助您满足您的需求。

如果您有兴趣在 Java 中执行相同的操作,请查看 Stanford SUTime,它是 Stanford CoreNLP 的一部分。

【讨论】:

    猜你喜欢
    • 2020-04-19
    • 2017-09-19
    • 2015-01-07
    • 2012-08-05
    • 1970-01-01
    • 1970-01-01
    • 2021-09-08
    • 2017-09-27
    • 1970-01-01
    相关资源
    最近更新 更多