【发布时间】:2011-01-18 14:45:51
【问题描述】:
【问题讨论】:
【问题讨论】:
您是否希望在特定域中标记 POS?大多数通用标记器都接受过新闻专线文本的培训。通常,当您在特定领域(如生物医学文本)中使用它们时,它们的表现不佳。还有其他专门针对此类领域训练的标注器,例如用于生物医学文本的 dTagger (java)。
对于新闻专线,Adwait Ratnaparkhi 的 MXPOST 非常好,是我推荐的。
其他 Java 实现包括:
可以在here 找到关于 POS 标记的最新信息。如您所见,LTAG-Spinal(另一张海报也提到过)目前排名最高,但各种标注器之间的差异并不大。我自己没有使用过 LTAG。
另请注意,POS 标记的基准性能约为 90%。基线意味着 - (a) 用词典中最常见的 POS 标签标记每个单词,以及 (b) 将每个未知单词标记为名词。
【讨论】:
我使用OpenNLP 效果很好。您也可以查看MorphAdorner。
【讨论】:
我使用过 LingPipe 和斯坦福的 POS Tagger。后者是state-of-the-art POS Tagger,但根据我的经验,它太慢了(尽管它们确实提供了不太准确的模型,但速度相当快)。当然,这始终取决于您要达到的目标,并且始终需要在速度和准确性之间进行权衡。
我也曾经使用过基于 LBJ 的 NER 软件,虽然它非常准确,但源代码却一团糟。 LingPipe 和 Stanford 的源代码都非常干净且有据可查。
你也可以看看LTAG-spinal。我还没有使用它,但从算法描述和列出的准确性来看,它肯定比你目前的替代品更好。
希望对你有帮助。
【讨论】: