【发布时间】:2017-05-01 15:28:37
【问题描述】:
我正在尝试在执行主题建模之前删除停用词。我注意到一些否定词(not,nor,never,none 等)通常被认为是停用词。例如,NLTK、spacy 和 sklearn 在它们的停用词列表中包含“not”。但是,如果我们从下面的这些句子中删除“不”,它们就会失去重要的意义,这对于主题建模或情感分析来说是不准确的。
1). StackOverflow is helpful => StackOverflow helpful
2). StackOverflow is not helpful => StackOverflow helpful
谁能解释为什么这些否定词通常被认为是停用词?
【问题讨论】:
-
这个问题感觉在更专业的网站上会得到更好的答案,因为它是关于软件背后的理论,而不是如何使用它进行编程。也许datascience.stackexchange.com?
-
我投票结束这个问题,因为它已被手动迁移到不同的 Stack Exchange:datascience.stackexchange.com/questions/15765/…
-
是的,同意,只是无法自己关闭它......所以回答了我自己的问题并尝试解决它。但我不能直到明天
-
是的,希望评论不会突然出现,它是在您使用投票关闭系统时自动生成的。
标签: nlp stop-words