【发布时间】:2019-11-04 17:30:47
【问题描述】:
我尝试了各种方法来正确标记一堆组成短语(尤其是名词短语)的单词,但没有成功。
例如:'the'、'first'、'early'、'morning'、'sunbeams'
'early' 和 'morning' 被错误地标记为 'Noun' 预期的结果应该是:('first', 'adverb'), ('early', 'adverb'), ('morning', '形容词'), ('阳光', '名词')
您能否建议一个正确标记这些词的程序?
提前致谢。
【问题讨论】:
-
嗨,您尝试过使用 NLTK 吗?
-
NLTK 很棒。有一个简单的函数可以做到这一点,适当地命名为 nltk.word_tokenize()
-
我正在寻找 PoS 标记的建议,而 nltk.word_tokenize() 将句子分解为单词或标记。顺便说一句,我什至尝试过 bigram HMM,但没有运气。
-
我不同意早上是形容词,恕我直言,这是noun adjunct
标签: python nlp nltk pos-tagger