NLTK NER：持续学习答案

【问题标题】：NLTK NER: Continuous LearningNLTK NER：持续学习
【发布时间】：2014-06-24 16:55:35
【问题描述】：

我一直在尝试使用 NLTK 的 NER 功能。我想从文章中提取这些实体。我知道这样做并不完美，但我想知道在手动标记 NE 之间是否有人为干预，会有所改善吗？

如果是，NLTK 中的现有模型是否可以持续训练模型。（半监督训练）

【问题讨论】：

简短回答，并非如此。 =)
您知道其他支持持续培训的工具吗？
抱歉，我不知道NLTK 中的任何内容，但可以肯定的是，它不支持手动注释，直到有人自愿为brat 编写brat 的GUI 包装器@。 NLP 中的人机交互总是很难编码，因为它通常需要某种 GUI。

【解决方案1】：

nltk 中提供的普通 NER 分块器在内部使用了在 ACE 语料库上训练的最大熵分块器。因此，无法识别日期或时间，除非您使用自己的分类器和数据对其进行训练（这是一项非常细致的工作）。

您可以参考此link 来执行相同的操作。

此外，在 nltk_contrib 中有一个名为 timex 的模块，它可能会帮助您满足您的需求。

如果您有兴趣在 Java 中执行相同的操作，请查看 Stanford SUTime，它是 Stanford CoreNLP 的一部分。

【讨论】：