【发布时间】:2013-05-29 19:49:33
【问题描述】:
我最初使用的是来自 NLTK 的以下 Penn Treebank 标记器:
POS_Tagger = UnigramTagger(treebank.tagged_sents(), backoff=DefaultTagger('NN'))
但是,这在口语文本方面有所不足。例如,“你好”不应该被识别为感叹词。我从这里 (In NLTK pos_tag, why “hello” is classified as Noun?) 读到,如果我想标记口语文本,我将“需要在整个 Penn Treebank 上训练标记器,其中包括大约 300 万个口语单词。”我现在的问题是如何我可以做到这一点?我来过这里 (Penn Treebank Project) 但在上面找不到任何东西。
如果对整个 Penn Treebank 进行培训太难,还有什么替代方案?我正在考虑使用 Brown 语料库,但是 POS 标签不同,这让我不得不重写程序的其他部分。
【问题讨论】:
标签: python nlp nltk corpus tagged-corpus