【发布时间】:2016-01-02 15:47:52
【问题描述】:
我正在对 Ted 数据集成绩单进行词形还原。我注意到一些奇怪的事情: 并非所有单词都被词形还原。话说,
selected -> select
这是对的。
但是,involved !-> involve 和 horsing !-> horse 除非我明确输入“v”(动词)属性。
在 python 终端上,我得到了正确的输出,但在我的 code 中却没有:
>>> from nltk.stem import WordNetLemmatizer
>>> from nltk.corpus import wordnet
>>> lem = WordNetLemmatizer()
>>> lem.lemmatize('involved','v')
u'involve'
>>> lem.lemmatize('horsing','v')
u'horse'
代码的相关部分是这样的:
for l in LDA_Row[0].split('+'):
w=str(l.split('*')[1])
word=lmtzr.lemmatize(w)
wordv=lmtzr.lemmatize(w,'v')
print wordv, word
# if word is not wordv:
# print word, wordv
整个代码是here。
有什么问题?
【问题讨论】:
-
代码在没有安装的情况下无法工作......你能提取输入吗,例如LDA_Row 长什么样子?
-
这是因为您的 POS 标签错误。 P/S:下一次,请尽量不要发布完整的代码,而是在解释问题的代码中表示 sn-ps,否则 Stackoverflow 用户可能会尝试关闭问题,说“问题不清楚”或者这是一个“我的代码不起作用”问题 =)
标签: python nlp nltk wordnet lemmatization