【问题标题】:What should be the size of Training data set for machine-learning?机器学习的训练数据集的大小应该是多少?
【发布时间】:2016-10-09 21:03:56
【问题描述】:

1) 我想对 Twitter 推文进行情绪分析。所以,我选择使用 datumbox-framework。我有一点疑问,我的训练样本的大小应该是多少? & 如果我正在收集正、负、中性的训练样本,我应该为所有训练样本保持相同的大小吗? (即,我是否可以收集 10 个 pos、5 个 neg、15 个中性作为我的训练集,或者我应该在我的训练集中收集并维护所有相同大小的 pos=10;neg=10;neutral=10 的 pos、neg、neutral)我用于推特情绪的算法。 是海军贝叶斯

2) 训练数据集有大小限制吗?

【问题讨论】:

  • 我能知道我的问题被否决的原因吗?
  • 它可能已被否决,因为它是一个可以导致基于意见的答案的问题。

标签: twitter machine-learning nlp datumbox


【解决方案1】:

训练集:用于构建模型的数据集。 理想情况下,数据集无论如何都不应该有偏见,并且应该包含将来可能出现的所有可能性。

训练集越大,结果越好。也就是说,训练集中的测试用例越多,你的模型就越好。所以尽量覆盖尽可能多的 pos、neg 或中性 twits。

没有理想的训练集大小。而且可能永远不会有一个训练集可以正确预测 100% 的测试用例,那是因为 系统不理解讽刺 :D

而且训练集没有大小限制。

注意:训练集必须是随机的,你不能使用 10pos、2neg、3neg 等,因为这会使其有偏差。

一般建议:将 60-70% 用于训练,其余用于验证和测试。

【讨论】:

  • 谢谢。我是否需要在某个时间更新我的训练集。我不知道如何使用验证和测试@AniMenon
  • 您可以随时通过考虑更大的训练集来改进您的模型。验证是检查有多少记录被正确分类并检查如何改进分类的过程。测试是您在经过训练的模型上运行新数据以发现模型准确性的阶段。
猜你喜欢
  • 2017-06-25
  • 2018-11-09
  • 2017-04-06
  • 2018-04-02
  • 2019-07-15
  • 2020-06-15
  • 2020-02-21
  • 2018-05-03
  • 2019-07-03
相关资源
最近更新 更多