【发布时间】:2019-04-11 13:26:11
【问题描述】:
我正在使用 python 和 nltk 进行 NLP。
我想知道是否有任何数据集包含包含与情绪相关的关键字的词袋,例如快乐、快乐、愤怒、悲伤等
从我在 nltk 语料库中挖掘的内容来看,我看到一些情绪分析语料库包含正面和负面评论,这些评论与显示情绪的关键字并不完全相关。
有没有什么我可以建立自己的字典来包含为此目的表达情感的单词?是这样,我该怎么做,有没有这样的词的集合?
任何帮助将不胜感激
【问题讨论】:
我正在使用 python 和 nltk 进行 NLP。
我想知道是否有任何数据集包含包含与情绪相关的关键字的词袋,例如快乐、快乐、愤怒、悲伤等
从我在 nltk 语料库中挖掘的内容来看,我看到一些情绪分析语料库包含正面和负面评论,这些评论与显示情绪的关键字并不完全相关。
有没有什么我可以建立自己的字典来包含为此目的表达情感的单词?是这样,我该怎么做,有没有这样的词的集合?
任何帮助将不胜感激
【问题讨论】:
我不知道有任何将情感与关键字相关联的数据集,但您可以从通用情感分析数据集开始轻松构建一个。
1) 从停用词和您不想与情绪关联的所有术语中清除数据集。
2) 计算两个情感类中每个单词的计数并对其进行归一化。通过这种方式,您将关联每个单词属于某个类别的概率。假设你在肯定句中出现了 300 次“爱”这个词,而在否定句中出现了 150 次同一个词。归一化你会发现“爱”这个词有 66% (300/(150+300)) 的概率属于正类,33% 属于负类。
3) 为了使字典对边界术语更加健壮,您可以设置一个阈值,以将最大概率低于阈值的所有单词视为中性。
这是构建您要查找的字典的简单方法。您可以使用更复杂的方法作为词频-逆文档频率。
【讨论】: