【问题标题】:Unbalanced Training Data for Machine Learning (CNNs / RNNs)机器学习的不平衡训练数据(CNN/RNN)
【发布时间】:2017-09-19 11:57:34
【问题描述】:

我发现,在不平衡的训练数据上训练一些 CNN 和 RNN 时,我的训练收敛速度相对较快,准确度大约是更大类的百分比(例如,如果有 80% 是的示例,它可能总是会输出是的)。我发现这是可以解释的……这个解决方案是局部最优的,网络在训练时无法逃脱它。这种解释是否正确,因此这种行为主要出现在这些情况下? 我能做些什么来反对它?合成更多的训练数据以使集合更均匀?还有什么? 非常感谢!

【问题讨论】:

    标签: machine-learning tensorflow conv-neural-network recurrent-neural-network


    【解决方案1】:

    您的问题与 TF 无关,这是机器学习中的标准问题。只需在 google 中输入“处理机器学习中的不平衡数据”并阅读几页即可。

    这里有一些方法:

    • 获取更多数据
    • 使用其他指标 (f1)
    • 欠采样/过采样/加权

    【讨论】:

      【解决方案2】:

      是的,你是对的。不平衡的训练数据确实会影响准确性。解决不平衡类问题的一些解决方案如下:

      1) 更多数据收集:在某些情况下,这并不容易。例如,与非欺诈案件相比,欺诈案件的数量非常少。

      2) 欠采样:从多数类中删除数据。您可以随机删除它或提供信息(从发行版中获取帮助来决定要删除哪些部分/补丁)

      3) 过采样:复制属于少数类的观察结果。

      【讨论】:

        猜你喜欢
        • 2017-06-25
        • 2017-04-06
        • 2017-03-26
        • 2020-06-15
        • 2020-02-21
        • 2018-12-14
        • 2011-02-15
        • 1970-01-01
        • 2019-07-03
        相关资源
        最近更新 更多