【问题标题】:Classifying negative and positive words in large files?对大文件中的否定词和肯定词进行分类?
【发布时间】:2018-11-01 13:45:10
【问题描述】:

我试图在一个非常大的文件中计算正数和负数。我只需要一种原始方法(不需要很长时间)。我已经尝试过 sentiwordnet,但一直收到IndexError: list index out of range,我认为这是由于 wordnet 词典中没有列出这些单词。文本包含大量错别字和“非单词”。

如果有人可以提出任何建议,我将非常感激!

【问题讨论】:

    标签: nlp nltk sentiment-analysis wordnet senti-wordnet


    【解决方案1】:

    这完全取决于您的数据是什么样的以及您的任务的最终目标是什么。您需要对您的项目进行更详细的描述,但总的来说,您有以下选择: - 制作你自己的情绪分析字典:我真的怀疑这是你想要做的,因为它需要大量的时间和精力,但如果你的数据足够简单,它是可行的。 - 清理你的数据:如果你的令牌因为太多的噪音和拼写错误的单词而不在 senti-wordnet 中,那么在将它们传递给 wordnet 之前尝试更正它们,它至少会限制你会得到的错误数量。 - 使用 senti-wordnet 替代方案:根据,没有那么多好的替代方案,但如果你使用的是 python,你总是可以尝试sentiment_classifiernltk's sentiment(从你的错误看起来像你一样)。 - 只分类你能做的:这是我推荐的。如果单词不在 senti-wordnet 中,则继续下一个。只需捕捉错误 (try: ... except IndexError: pass) 并尝试通过计算您实际捕捉到的情绪词来推断数据的一般情绪。

    PS:我们需要查看您的代码才能确定,但​​我认为您收到 IndexError 的原因还有另一个。如果这个词不在 senti-wordnet 中,你会得到一个 KeyError,但这也取决于你如何编码你的函数。

    祝你好运,希望对你有所帮助。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2016-10-02
      • 2010-10-31
      • 2014-05-21
      • 1970-01-01
      • 2018-01-14
      • 2020-07-29
      相关资源
      最近更新 更多