【发布时间】:2012-10-26 11:30:41
【问题描述】:
我正在从事一个机器学习项目,目前处于进展的第一阶段。我正在提取功能并测试要使用或不使用的功能。我有一个由 2 个类组成的数据集。我想检查情绪和作为其中任何一个群体之间是否存在关系。我的数据如下所示:
group_a this is a tweet
group_b this is another tweet
group_b this is another tweet
group_a this is another tweet
我如何找到情绪和群体之间的相关性?因为这是我项目的一个特征选择部分,我可以使用任何工具而不是手动实现它。 WEKA、PRTools 或任何其他工具,如果您能告诉我如何操作,欢迎您。
PS:实际上在实现算法之前,我想检查我是否可以得到类似的东西:
即group_a 比 group_b 更负面
所以在我的测试数据中,当我得到一个句子时,我可以说如果它是一个负面情绪句子,它可能与 group_a 相关
【问题讨论】:
-
你能不能举个详细的例子,不只是
this is a sentence here。我不太明白你的问题。 -
@greeness 我已经更新了我的问题。
-
所以我可以假设:首先,每条推文只有一种情绪(您可以使用某种积极性度量,例如,从 -3 到 3)。其次,当聚合组级别的所有推文时,您希望看到 group_a 和 group_b 之间的情绪度量(分数)分布显着不同?如果是这种情况,您可以从为每条推文收集标记数据(积极性)开始。然后使用通常的方式训练分类器(获取 n-gram、表情符号、pos 标签等特征)。最后聚合n条推文的预测结果,比较组间相关性。
标签: twitter machine-learning classification sentiment-analysis