机器学习的训练数据集的大小应该是多少？答案

【问题标题】：What should be the size of Training data set for machine-learning?机器学习的训练数据集的大小应该是多少？
【发布时间】：2016-10-09 21:03:56
【问题描述】：

1) 我想对 Twitter 推文进行情绪分析。所以，我选择使用 datumbox-framework。我有一点疑问，我的训练样本的大小应该是多少？ & 如果我正在收集正、负、中性的训练样本，我应该为所有训练样本保持相同的大小吗？（即，我是否可以收集 10 个 pos、5 个 neg、15 个中性作为我的训练集，或者我应该在我的训练集中收集并维护所有相同大小的 pos=10;neg=10;neutral=10 的 pos、neg、neutral）我用于推特情绪的算法。是海军贝叶斯。

2) 训练数据集有大小限制吗？

【问题讨论】：

我能知道我的问题被否决的原因吗？
它可能已被否决，因为它是一个可以导致基于意见的答案的问题。

标签： twitter machine-learning nlp datumbox

【解决方案1】：

训练集：用于构建模型的数据集。理想情况下，数据集无论如何都不应该有偏见，并且应该包含将来可能出现的所有可能性。

训练集越大，结果越好。也就是说，训练集中的测试用例越多，你的模型就越好。所以尽量覆盖尽可能多的 pos、neg 或中性 twits。

没有理想的训练集大小。而且可能永远不会有一个训练集可以正确预测 100% 的测试用例，那是因为 系统不理解讽刺 :D

而且训练集没有大小限制。

注意：训练集必须是随机的，你不能使用 10pos、2neg、3neg 等，因为这会使其有偏差。

一般建议：将 60-70% 用于训练，其余用于验证和测试。

【讨论】：

谢谢。我是否需要在某个时间更新我的训练集。我不知道如何使用验证和测试@AniMenon
您可以随时通过考虑更大的训练集来改进您的模型。验证是检查有多少记录被正确分类并检查如何改进分类的过程。测试是您在经过训练的模型上运行新数据以发现模型准确性的阶段。