【问题标题】:extracting from a tagged corpus in python从python中的标记语料库中提取
【发布时间】:2012-02-23 07:34:15
【问题描述】:

嗨,我正在尝试从标记的语料库中提取专有名词,例如,从 nltk 标记的语料库 brown 我尝试提取仅标记为“NP”的单词。

我的代码:

  import nltk
  from nltk.corpus import brown
  f = brown.raw('ca01')
  print nltk.corpus.brown.tagged_words()
  w=[nltk.tag.str2tuple(t) for t in f.split()]
  print w

但它没有显示单词而是仅显示

[]

样本输出:

    [('The', 'AT'), ('Fulton', 'NP-TL'), ...]
    []

为什么会这样??

谢谢。

我只知道 f.split()..然后我得到

             [('The', 'AT'), ('Fulton', 'NP-TL'), ('County', 'NN-TL'), ('Grand', 'JJ-TL'), ('Jury', 'NN-TL'), ('said', 'VBD'), ('Friday', 'NR'), ('an', 'AT'), ('investigation', 'NN'), ('of', 'IN'), ("Atlanta's", 'NP$'), ('recent', 'JJ'), ('primary', 'NN'), ('election', 'NN'), ('produced', 'VBD'), ('``', '``'), ('no', 'AT'), ('evidence', 'NN'), ("''", "''"), ('that', 'CS'), ('any', 'DTI'), ('irregularities', 'NNS'), ('took', 'VBD'), ('place', 'NN'), ('.', '.'), ('The', 'AT'), ('jury', 'NN'), ('further', 'RBR'), ('said', 'VBD'), ('in', 'IN'), ('term-end', 'NN'), ('presentments', 'NNS'), ('that', 'CS'), ('the', 'AT'), ('City', 'NN-TL').....

【问题讨论】:

    标签: python nlp nltk


    【解决方案1】:

    人们认为t.split('/')[1] == 'NP' 总是评估为假。

    【讨论】:

    • @fara:你告诉我。如果这是您的问题,请提出一个新问题。
    【解决方案2】:

    无法从您给我们的内容中分辨出来,但是您是否尝试过逐步解决问题?似乎在任何情况下t.split('/')[1] == 'NP' 都不会评估为 True。所以你应该从:

    1. 打印/调试以查看 f.split() 究竟包含什么
    2. 确保您的条件实际上是正确的,从您提供的输出的小样本来看,我认为您正在寻找更多:if t.split('/')[1].startswith('NP'),但无法确定。

    编辑:

    好的,首先,如果这确实是 f.split() 打印给您的内容,那么您应该得到一个异常 sicne t is a tuple 并且 tuple 没有 split() 方法。所以你让我好奇,我安装了nltk 并下载了“棕色”语料库并尝试了你的代码。现在首先,如果我这样做的话:

      import nltk
      from nltk.corpus import brown
      f = brown.raw('ca01')
      print f.split()
    
      ['The/at', 'Fulton/np-tl', 'County/nn-tl', 'Grand/jj-tl', 'Jury/nn-tl', 'said/vbd', 'Friday/nr', 'an/at', 'investigation/nn', 'of/in', "Atlanta's/np$", 'recent/jj', 'primary/nn', 'election/nn', 'produced/vbd', '``/``', 'no/at', 'evidence/nn', "''/''", 'that/cs', 'any/dti', 'irregularities/nns', 'took/vbd', 'place/nn', './.', 'The/at', 'jury/nn', 'further/rbr', 'said/vbd', 'in/in', 'term-end/nn', 'presentments/nns', 'that/cs', 'the/at', 'City/nn-tl', 'Executive/jj-tl', 'Committee/nn-tl', ',/,', 'which/wdt', 'had/hvd', 'over-all/jj', 'charge/nn', 'of/in', 'the/at', 'election/nn', ',/,', '``/``', 'deserves/vbz', 'the/at', 'praise/nn', 'and/cc', 'thanks/nns', 'of/in', 'the/at', 'City/nn-tl' .....]
    

    所以我不知道你在那里做了什么来得到结果,但它是不正确的。现在,正如您从组中看到的那样,单词的第二部分是小写的,这就是您的代码失败的原因。所以如果你这样做:

    w=[nltk.tag.str2tuple(t) for t in f.split() if t.split('/')[1].lower() == 'np']
    

    这将为您提供结果:

    [('September-October', 'NP'), ('Durwood', 'NP'), ('Pye', 'NP'), ('Ivan', 'NP'), ('Allen', 'NP'), ('Jr.', 'NP'), ('Fulton', 'NP'), ('Atlanta', 'NP'), ('Fulton', 'NP'), ('Fulton', 'NP'), ('Jan.', 'NP'), ('Fulton', 'NP'), ('Bellwood', 'NP'), ('Alpharetta', 'NP'), ('William', 'NP'), ('B.', 'NP'), ('Hartsfield', 'NP'), ('Pearl', 'NP'), ('Williams', 'NP'), ('Hartsfield', 'NP'), ('Aug.', 'NP'), ('William', 'NP'), ('Berry', 'NP'), ('Jr.', 'NP'), ('Mrs.', 'NP'), ('J.', 'NP'), ('M.', 'NP'), ('Cheshire', 'NP'), ('Griffin', 'NP'), ('Opelika', 'NP'), ('Ala.', 'NP'), ('Hartsfield', 'NP'), ('E.', 'NP'), ('Pelham', 'NP'), ('Henry', 'NP'), ('L.', 'NP'), ('Bowden', 'NP'), ('Hartsfield', 'NP'), ('Atlanta', 'NP'), ('Jan.', 'NP'), ('Ivan', 'NP'), ....]
    

    现在,在您发布我要求的信息之前,请仔细检查以供将来参考,因为如果它不正确,那么它就会产生误导,它既不会帮助那些试图帮助你的人,也不会帮助你自己。不是作为批评者,而是作为建设性的建议:)

    【讨论】:

    • 如果我尝试 num 2。它显示的答案与我相同。上面给出了 f.split 的结果。
    猜你喜欢
    • 1970-01-01
    • 2023-04-07
    • 1970-01-01
    • 2013-01-08
    • 1970-01-01
    • 2016-06-13
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多