用于对群体进行分类的情绪分析工具答案

【问题标题】：Sentiment analysis tool to classify groups用于对群体进行分类的情绪分析工具
【发布时间】：2012-10-26 11:30:41
【问题描述】：

我正在从事一个机器学习项目，目前处于进展的第一阶段。我正在提取功能并测试要使用或不使用的功能。我有一个由 2 个类组成的数据集。我想检查情绪和作为其中任何一个群体之间是否存在关系。我的数据如下所示：

group_a this is a tweet
group_b this is another tweet
group_b this is another tweet
group_a this is another tweet

我如何找到情绪和群体之间的相关性？因为这是我项目的一个特征选择部分，我可以使用任何工具而不是手动实现它。 WEKA、PRTools 或任何其他工具，如果您能告诉我如何操作，欢迎您。

PS：实际上在实现算法之前，我想检查我是否可以得到类似的东西：

即group_a 比 group_b 更负面

所以在我的测试数据中，当我得到一个句子时，我可以说如果它是一个负面情绪句子，它可能与 group_a 相关

【问题讨论】：

你能不能举个详细的例子，不只是this is a sentence here。我不太明白你的问题。
@greeness 我已经更新了我的问题。
所以我可以假设：首先，每条推文只有一种情绪（您可以使用某种积极性度量，例如，从 -3 到 3）。其次，当聚合组级别的所有推文时，您希望看到 group_a 和 group_b 之间的情绪度量（分数）分布显着不同？如果是这种情况，您可以从为每条推文收集标记数据（积极性）开始。然后使用通常的方式训练分类器（获取 n-gram、表情符号、pos 标签等特征）。最后聚合n条推文的预测结果，比较组间相关性。

【解决方案1】：

根据您的问题，我假设您正在尝试将二元情绪分类为积极情绪与消极情绪。我建议在 Weka 中使用 C4.5 决策树分类器。如果您想深入了解 C4.5 中使用的熵度量如何模拟您要达到的目标的理论细节，请查看 Ch. 4 个Mark Hall's thesis

【讨论】：

【解决方案2】：

这是一份关于如何在 NLTK 中执行情感分析的好文档。

http://www.laurentluce.com/posts/twitter-sentiment-analysis-using-python-and-nltk/

此外，scikit-learn 是 Python 编程语言的开源机器学习库。由于您也只能将其分类为 2 个类别，因此 Bernoulli Naive Bayes 分类器应该能够有效地解决您的任务。

http://scikit-learn.org/stable/modules/naive_bayes.html#bernoulli-naive-bayes

你的解决方案 = nltk + scikit

干杯。

【讨论】：