【问题标题】:Is there a way to correctly tag (PoS Tagging) the words which are forming a phrase together?有没有办法正确标记(PoS 标记)一起形成短语的单词?
【发布时间】:2019-11-04 17:30:47
【问题描述】:

我尝试了各种方法来正确标记一堆组成短语(尤其是名词短语)的单词,但没有成功。

例如:'the'、'first'、'early'、'morning'、'sunbeams'

'early' 和 'morning' 被错误地标记为 'Noun' 预期的结果应该是:('first', 'adverb'), ('early', 'adverb'), ('morning', '形容词'), ('阳光', '名词')

您能否建议一个正确标记这些词的程序?

提前致谢。

【问题讨论】:

  • 嗨,您尝试过使用 NLTK 吗?
  • NLTK 很棒。有一个简单的函数可以做到这一点,适当地命名为 nltk.word_tokenize()
  • 我正在寻找 PoS 标记的建议,而 nltk.word_tokenize() 将句子分解为单词或标记。顺便说一句,我什至尝试过 bigram HMM,但没有运气。
  • 我不同意早上是形容词,恕我直言,这是noun adjunct

标签: python nlp nltk pos-tagger


【解决方案1】:

POS 标注器通常使用隐马尔可夫模型。如果您的数据未使用这些方法正确标记,那么您的标记器(自制?)不适合您的输入数据,或者您的训练数据不足(太小、错误注释等)。我假设的各种方式是来自 NLTK、spaCy 或来自斯坦福 (https://nlp.stanford.edu/software/) 的工具。这些软件包将在当前研究的质量方面发挥作用,所以如果它仍然容易出错,你将无法修复它。 如果你手头有一个大集群,如果你愿意,可以使用 n > 3 的 n-gram 构建你自己的标注器,但我怀疑这会比上面提到的模块更好。

【讨论】:

  • 谢谢,我认为我应该专注于数据部分,而不是玩弄 PoS 标记技术
  • 也许看看你是否可以从这里获取数据:code.google.com/archive/p/miralium/wikis/PosTaggerTutorial.wiki 或从 ntlk:nltk.corpus.treebank.tagged_sents() 或 conll2000,但是好的训练数据真的很稀缺,因为注释器想要付费,所以带注释的大数据真的很贵……
  • 非常感谢..真的很感激
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2015-06-06
  • 2018-05-24
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多