用于分类的预分类训练 Twitter 评论答案

【问题标题】：preclassified trained twitter comments for categorization用于分类的预分类训练 Twitter 评论
【发布时间】：2014-11-30 10:07:59
【问题描述】：

所以我有大约 100 万行 csv 格式的 twitter cmets 数据。我需要将它们分类为某些类别，例如是否有人在谈论：“产品寿命”、“便宜/昂贵”、“打折/折扣”等。

如您所见，我有多个类可以将这些推文数据分类。问题是我如何为如此庞大的数据生成/创建训练数据。愚蠢的问题，但我想知道是否已经有预分类/标记的 cmets 数据来训练我们的模型？如果不是，那么为文本/cmets 的多类分类创建训练数据的最佳方法是什么？

虽然我已经尝试并测试了 NaiveBayes 对较小数据集的情感分类，但您能否建议我应该为这个问题使用哪个分类器（多个类别将 cmets 分类）。

谢谢！！！

【问题讨论】：

当您两次发布相同的问题时，您不会受到很好的对待 =( ，请参阅stackoverflow.com/help/how-to-ask
很抱歉，有一次我在一篇文章中发布了 3 个问题。并因此受到抨击。然后我不得不将它们作为三个帖子单独发布，而所有帖子的背景都相同。这就是为什么我将相同数据的另一个方面作为单独的问题发布

【解决方案1】：

问题是我什至如何生成/创建训练数据这么大的数据

我建议找到一个可以帮助您找到感兴趣的类别的训练数据集。假设与价格相关的文章，您可能希望找到一个与价格相关的文章的训练数据集，然后可能会扩展通过使用诸如便宜等关键字的同义词来实现。或许还可以查看句子结构，看看句子结构是否有助于您的分类器算法。

如果不是，那么创建训练数据的最佳方法是什么？ text/cmets的多类分类？关键词，拉取所有关于相关类别的文章，然后从那里开始。

最后，我建议您非常熟悉 NLTK 的语料库，这也可能有助于您检索训练数据。

至于您的最后一个问题，我对您所说的“将 cmets 分类为多个类别”的意思有点困惑，您的意思是让特定评论属于多个分类器吗？那么评论可以属于1到更多的分类器吗？

【讨论】：