对大文件中的否定词和肯定词进行分类？答案

【问题标题】：Classifying negative and positive words in large files?对大文件中的否定词和肯定词进行分类？
【发布时间】：2018-11-01 13:45:10
【问题描述】：

我试图在一个非常大的文件中计算正数和负数。我只需要一种原始方法（不需要很长时间）。我已经尝试过 sentiwordnet，但一直收到IndexError: list index out of range，我认为这是由于 wordnet 词典中没有列出这些单词。文本包含大量错别字和“非单词”。

如果有人可以提出任何建议，我将非常感激！

【问题讨论】：

标签： nlp nltk sentiment-analysis wordnet senti-wordnet

【解决方案1】：

这完全取决于您的数据是什么样的以及您的任务的最终目标是什么。您需要对您的项目进行更详细的描述，但总的来说，您有以下选择： - 制作你自己的情绪分析字典：我真的怀疑这是你想要做的，因为它需要大量的时间和精力，但如果你的数据足够简单，它是可行的。 - 清理你的数据：如果你的令牌因为太多的噪音和拼写错误的单词而不在 senti-wordnet 中，那么在将它们传递给 wordnet 之前尝试更正它们，它至少会限制你会得到的错误数量。 - 使用 senti-wordnet 替代方案：根据，没有那么多好的替代方案，但如果你使用的是 python，你总是可以尝试sentiment_classifier 或nltk's sentiment（从你的错误看起来像你一样）。 - 只分类你能做的：这是我推荐的。如果单词不在 senti-wordnet 中，则继续下一个。只需捕捉错误 (try: ... except IndexError: pass) 并尝试通过计算您实际捕捉到的情绪词来推断数据的一般情绪。

PS：我们需要查看您的代码才能确定，但我认为您收到 IndexError 的原因还有另一个。如果这个词不在 senti-wordnet 中，你会得到一个 KeyError，但这也取决于你如何编码你的函数。

祝你好运，希望对你有所帮助。

【讨论】：