【发布时间】:2014-04-06 16:42:53
【问题描述】:
我想识别任何文字中写的所有名字,目前我正在使用 IMDB 电影评论。
我正在使用 stanford POS 标记器,并分析所有专有名词(因为专有名词是人名、事物、地点的名称),但这很慢。
首先我标记所有输入行,然后我检查所有带有 NNP 的单词,这是一个缓慢的过程。
是否有任何有效的替代品来完成这项任务?任何库(最好在 JAVA 中)。 谢谢。
【问题讨论】:
-
查看 Apache OpenNLP 并研究命名实体标记。
-
我尝试了 Ipen NLP,但结果并不那么准确,尽管它比 stanford POS 标注器快得多。
-
NER 是一个比词性标注更难的问题,词性标注器不会做你想做的事。 NER 当然有商业替代品,或者您可以尝试 OpenCalais。
标签: java nlp stanford-nlp linguistics lingpipe