有没有办法正确标记（PoS 标记）一起形成短语的单词？答案

【问题标题】：Is there a way to correctly tag (PoS Tagging) the words which are forming a phrase together?有没有办法正确标记（PoS 标记）一起形成短语的单词？
【发布时间】：2019-11-04 17:30:47
【问题描述】：

我尝试了各种方法来正确标记一堆组成短语（尤其是名词短语）的单词，但没有成功。

例如：'the'、'first'、'early'、'morning'、'sunbeams'

'early' 和 'morning' 被错误地标记为 'Noun' 预期的结果应该是：('first', 'adverb'), ('early', 'adverb'), ('morning', '形容词'), ('阳光', '名词')

您能否建议一个正确标记这些词的程序？

提前致谢。

【问题讨论】：

嗨，您尝试过使用 NLTK 吗？
NLTK 很棒。有一个简单的函数可以做到这一点，适当地命名为 nltk.word_tokenize()
我正在寻找 PoS 标记的建议，而 nltk.word_tokenize() 将句子分解为单词或标记。顺便说一句，我什至尝试过 bigram HMM，但没有运气。
我不同意早上是形容词，恕我直言，这是noun adjunct

标签： python nlp nltk pos-tagger

【解决方案1】：

POS 标注器通常使用隐马尔可夫模型。如果您的数据未使用这些方法正确标记，那么您的标记器（自制？）不适合您的输入数据，或者您的训练数据不足（太小、错误注释等）。我假设的各种方式是来自 NLTK、spaCy 或来自斯坦福 (https://nlp.stanford.edu/software/) 的工具。这些软件包将在当前研究的质量方面发挥作用，所以如果它仍然容易出错，你将无法修复它。如果你手头有一个大集群，如果你愿意，可以使用 n > 3 的 n-gram 构建你自己的标注器，但我怀疑这会比上面提到的模块更好。

【讨论】：

谢谢，我认为我应该专注于数据部分，而不是玩弄 PoS 标记技术
也许看看你是否可以从这里获取数据：code.google.com/archive/p/miralium/wikis/PosTaggerTutorial.wiki 或从 ntlk：nltk.corpus.treebank.tagged_sents() 或 conll2000，但是好的训练数据真的很稀缺，因为注释器想要付费，所以带注释的大数据真的很贵……
非常感谢..真的很感激