【发布时间】:2010-03-28 02:44:31
【问题描述】:
我正在用 django 构建一个网站,需要从短消息(类似 Twitter 的消息)中提取关键词。
我查看了诸如topia.textextract 和nltk 之类的包——但对于我需要做的事情来说,这两个包似乎都过大了。我需要做的就是过滤诸如“and”、“or”、“not”之类的词,同时保留不是连词或其他词性的名词和动词。是否有任何“更简单”的软件包可以做到这一点?
编辑:这需要在生产网站上近乎实时地完成,因此根据响应时间和请求限制,使用关键字提取服务似乎是不可能的。
【问题讨论】: