【问题标题】:Sentiment analysis tool to classify groups用于对群体进行分类的情绪分析工具
【发布时间】:2012-10-26 11:30:41
【问题描述】:

我正在从事一个机器学习项目,目前处于进展的第一阶段。我正在提取功能并测试要使用或不使用的功能。我有一个由 2 个类组成的数据集。我想检查情绪和作为其中任何一个群体之间是否存在关系。我的数据如下所示:

group_a this is a tweet
group_b this is another tweet
group_b this is another tweet
group_a this is another tweet

我如何找到情绪和群体之间的相关性?因为这是我项目的一个特征选择部分,我可以使用任何工具而不是手动实现它。 WEKA、PRTools 或任何其他工具,如果您能告诉我如何操作,欢迎您。

PS:实际上在实现算法之前,我想检查我是否可以得到类似的东西:

即group_a 比 group_b 更负面

所以在我的测试数据中,当我得到一个句子时,我可以说如果它是一个负面情绪句子,它可能与 group_a 相关

【问题讨论】:

  • 你能不能举个详细的例子,不只是this is a sentence here。我不太明白你的问题。
  • @greeness 我已经更新了我的问题。
  • 所以我可以假设:首先,每条推文只有一种情绪(您可以使用某种积极性度量,例如,从 -3 到 3)。其次,当聚合组级别的所有推文时,您希望看到 group_a 和 group_b 之间的情绪度量(分数)分布显着不同?如果是这种情况,您可以从为每条推文收集标记数据(积极性)开始。然后使用通常的方式训练分类器(获取 n-gram、表情符号、pos 标签等特征)。最后聚合n条推文的预测结果,比较组间相关性。

标签: twitter machine-learning classification sentiment-analysis


【解决方案1】:

根据您的问题,我假设您正在尝试将二元情绪分类为积极情绪与消极情绪。我建议在 Weka 中使用 C4.5 决策树分类器。如果您想深入了解 C4.5 中使用的熵度量如何模拟您要达到的目标的理论细节,请查看 Ch. 4 个Mark Hall's thesis

【讨论】:

    【解决方案2】:

    这是一份关于如何在 NLTK 中执行情感分析的好文档。

    http://www.laurentluce.com/posts/twitter-sentiment-analysis-using-python-and-nltk/

    此外,scikit-learn 是 Python 编程语言的开源机器学习库。由于您也只能将其分类为 2 个类别,因此 Bernoulli Naive Bayes 分类器应该能够有效地解决您的任务。

    http://scikit-learn.org/stable/modules/naive_bayes.html#bernoulli-naive-bayes

    你的解决方案 = nltk + scikit

    干杯。

    【讨论】:

      猜你喜欢
      • 2018-12-26
      • 2015-09-23
      • 2012-05-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2010-11-14
      • 2013-02-22
      相关资源
      最近更新 更多