【发布时间】:2014-11-30 10:07:59
【问题描述】:
所以我有大约 100 万行 csv 格式的 twitter cmets 数据。我需要将它们分类为某些类别,例如是否有人在谈论:“产品寿命”、“便宜/昂贵”、“打折/折扣”等。
如您所见,我有多个类可以将这些推文数据分类。 问题是我如何为如此庞大的数据生成/创建训练数据。愚蠢的问题,但我想知道是否已经有预分类/标记的 cmets 数据来训练我们的模型?如果不是,那么为文本/cmets 的多类分类创建训练数据的最佳方法是什么?
虽然我已经尝试并测试了 NaiveBayes 对较小数据集的情感分类,但您能否建议我应该为这个问题使用哪个分类器(多个类别将 cmets 分类)。
谢谢!!!
【问题讨论】:
-
当您两次发布相同的问题时,您不会受到很好的对待 =( ,请参阅stackoverflow.com/help/how-to-ask
-
很抱歉,有一次我在一篇文章中发布了 3 个问题。并因此受到抨击。然后我不得不将它们作为三个帖子单独发布,而所有帖子的背景都相同。这就是为什么我将相同数据的另一个方面作为单独的问题发布
标签: python twitter machine-learning classification nltk