【问题标题】:Why does the Penn Treebank POS tagset have a separate tag for the word 'to'?为什么 Penn Treebank POS 标签集对“to”这个词有一个单独的标签?
【发布时间】:2013-10-05 10:48:18
【问题描述】:

Penn Treebank tagset 对单词“to”有一个单独的标签 TO,无论它是用于介词意义(如I went to school)还是不定式意义(如I want to eat)。从整体 NLP 的角度来看,这有什么作用?仅分别标记不定式“to”具有直观意义,但我看不出将不定式和介词组合在单个标记中的逻辑。

谢谢,如果这不符合堆栈溢出准则,我们深表歉意。

【问题讨论】:

    标签: nlp pos-tagger


    【解决方案1】:

    不同的语料库提供不同级别的粒度。例如,将其与 toBritish National Corpus, which includes three different tags 进行比较。

    我相信这可能是语料库标记实践的一个属性,而不是出于这种特定的 NLP 性能目的。不难想象这是POS Guidelines for the Penn Treebank Project 的设计决定。 (联系this paper 的作者以获得进一步的说明。)

    为了使词性标签集 not 对单词“to”有一个单独的标签,有时需要将“to”标记为介词,有时将“to”标记为“不定式标记”的不同标签。要做到这一点,人工标注者必须消除“to”这两个角色之间的歧义。一些tricky cases(需要语法判断)可能需要一些额外的人工时间来消除歧义,考虑到标记的语料库的大小,这也可能导致一些错误标记。如果估计信息增益(从消除歧义的粒度)不是那么大,或者如果估计潜在的标记错误为太多了。

    【讨论】:

      猜你喜欢
      • 2017-10-22
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2011-10-28
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多