【问题标题】:Does the number of datasets for the classification of different classes matter不同类别分类的数据集数量是否重要
【发布时间】:2014-03-19 22:45:26
【问题描述】:

我有样本训练数据集,我想知道不同班级的日期数量。我应该在班级之间平衡数据集吗?

【问题讨论】:

    标签: neural-network classification svm


    【解决方案1】:

    训练数据中类表示的不对称性通常称为偏度 [https://en.wikipedia.org/wiki/Skewness],会给您的模型带来一些问题,因此通常您希望避免这种情况.

    也就是说,这只是一个经验法则,您可能会遇到这样的情况,即数据点较少的类实际上被正确表示,而其他类是冗余的,在这种情况下,数据点数量的差异对于每个类可能并不重要。

    主要问题是很难先验地判断数据在表示方面是否平衡,因此最好的方法是尝试保持数据点的平衡。此外,一些算法对非对称数据很敏感,因此即使数据确实正确地表示了空间,不平衡也可能会给模型带来偏差。

    以下是一些可能有用的链接:

    http://people.stern.nyu.edu/fprovost/Papers/skew.PDF

    http://etabeta.univ.trieste.it/dspace/bitstream/10077/4002/1/Menardi%20Torelli%20DEAMS%20WPS2.pdf

    http://florianhartl.com/thoughts-on-machine-learning-dealing-with-skewed-classes.html

    【讨论】:

      猜你喜欢
      • 2014-09-08
      • 2019-01-11
      • 2021-12-09
      • 1970-01-01
      • 2015-07-05
      • 2015-05-09
      • 2016-04-24
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多