【发布时间】:2014-08-31 02:28:03
【问题描述】:
有没有办法在 Python 2.7 中使用 NLTK 来获取单词而不是包含 "synset" 和括号以及 "n.01" 等的额外格式?
例如,如果我这样做了
wn.synsets('dog')
我的结果如下:
[Synset('dog.n.01'), Synset('frump.n.01'), Synset('dog.n.03'), Synset('cad.n.01'), Synset('frank.n.02'), Synset('pawl.n.01'), Synset('andiron.n.01'), Synset('chase.v.01')]
我怎样才能得到这样的列表?
dog
frump
cad
frank
pawl
andiron
chase
有没有办法使用NLTK 来做到这一点,还是我必须使用regular expressions?我可以在 python 脚本中使用regular expressions 吗?
【问题讨论】:
-
根据规则
includes "synset" and the parentheses and the "n.01"frank和chase不应成为所需输出的一部分? -
与问题无关,但
frank是frankfurter的同义词/简写,hot dog或dog的同义词。同样dog作为动词表示chase。 -
我看到一个微弱的讽刺失败,没有遇到微妙的讽刺色彩......