情绪分析的合适训练集大小是多少？答案

【问题标题】：What is an appropriate training set size for sentiment analysis?情绪分析的合适训练集大小是多少？
【发布时间】：2016-06-29 23:08:28
【问题描述】：

我希望使用一些关于麻疹/mmr 疫苗的推文来了解疫苗接种的情绪如何随时间变化。我计划从我目前拥有的数据语料库中创建训练集（除非有人对我可以从哪里获得类似数据提出建议）。

我想将一条推文分类为：支持疫苗、反疫苗或两者都不是（这些都是关于疫情的真实推文）。

所以问题是：多大才算足够大？我想避免过度拟合的问题（所以我会做一个测试火车拆分），但随着我包含越来越多的推文，需要学习的特征数量急剧增加。

我在想 1000 条推文（每条 333 条）。任何意见都在这里表示感谢，如果您能推荐一些资源，那也很棒。

【问题讨论】：

【解决方案1】：

更多总是更好。 1000 条 3 路拆分的推文似乎相当雄心勃勃，我什至认为每班 1000 条推文的 3 路拆分相当低。在可行的时间内尽可能多地标记。

此外，可能值得采用级联方法（尤其是数据很少），即标记一组vaccine vs non-vaccine，在vaccine 子集中，您将有一个pro vs anti 设置。

根据我的经验，试图为一个包罗万象的“中性”类建模，其中包含没有明确“赞成”或“反对”的所有内容，这是非常困难的，因为噪音太大了。尤其是对于朴素贝叶斯等更简单的模型，我发现级联方法效果很好。

【讨论】：

1000多对吧？可能无法摆脱，但我会尽力而为。关于级联，这是否仍然意味着我将分为三组：疫苗专业、疫苗抗和非疫苗？也许我误解了级联方法。
对于级联，你仍然有 3 个组，但你会在两个 2 类问题上训练 2 个不同的分类器，而不是在 3 路拆分上训练一个分类器。此外，由于数据如此之少，半监督学习（例如朴素贝叶斯 + 期望最大化）和主动学习可以帮助构建更好的分类器。