【发布时间】:2013-06-13 09:37:17
【问题描述】:
假设我下载了“n”条推文并从中删除长度
但是,在我的数据集中,每个单词都变成了一个属性,不同的示例推文将具有不同的数量属性。
我可以使用这个数据集并将我的问题视为分类问题吗?并尝试预测一条新推文是负面的还是非负面的?
或者你认为预测推文是否为负面的最佳方法是什么?
【问题讨论】:
标签: data-analysis sentiment-analysis
假设我下载了“n”条推文并从中删除长度
但是,在我的数据集中,每个单词都变成了一个属性,不同的示例推文将具有不同的数量属性。
我可以使用这个数据集并将我的问题视为分类问题吗?并尝试预测一条新推文是负面的还是非负面的?
或者你认为预测推文是否为负面的最佳方法是什么?
【问题讨论】:
标签: data-analysis sentiment-analysis
您正在描述一个标准文本分类问题。在此设置中,特征集是(有限的)单词集,而不是 Sepal 长度、宽度、...
因此,每个文档都针对所有此类特征(所有文档具有相同数量的特征)表示,但大多数值将为零,从而创建一个非常稀疏的向量。
这是预测极性/情绪的最佳方式,但您应该进一步提高对该主题的了解。我建议阅读Sebastiani's survey on Text Classification。
问候,
【讨论】: