【问题标题】:How to check whether data is being overfiited for that model in weka如何检查 weka 中该模型的数据是否过拟合
【发布时间】:2013-08-24 17:34:38
【问题描述】:

我的原始数据集有 500 个实例 10 个类,并且存在类不平衡

为了减少类不平衡,我使用了过采样技术和我的 新数据集有 1500 个实例和 10 个类。

对于原始数据集,我应用了 j48 分类器并获得了 63% 的准确率

对于新的采样数据集,我应用了 j48 分类器并获得了 75% 的准确率。

我的问题是我怀疑我的数据对分类器过度拟合。

如何检查数据是否过拟合以及如何减少过拟合

【问题讨论】:

    标签: classification weka


    【解决方案1】:

    通常,人们会谈论分类器过度拟合数据,而不是相反。这意味着分类器(例如您的案例中的决策树)不会学习数据背后的一般概念,而只是为了近似数据的特性。

    要检查您的分类器是否过拟合,您需要单独的训练集和测试集。在您的情况下,原始数据和过采样数据不会 - 您需要完全独立的数据,即没有重叠点。 Weka 有多种选择来实现这一点——你可以告诉它训练/测试拆分应该是什么,使用另一个文件中给出的显式测试集或交叉验证。

    获得单独的集后,您可以在训练集上训练分类器并在测试集上对其进行评估。你在两个数据集上都得到了准确度,如果它们非常不平衡(例如,训练集的准确度为 90%,而测试集的准确度仅为 50%),这将表明过度拟合。请注意,虽然没有硬性规定,但最终一切都取决于您的判断。

    【讨论】:

    • 通过调整算法的参数,例如对于J48,您可以尝试增加每个叶子所需的实例数。
    【解决方案2】:

    正如 Lars 在他的回答中提到的,目前尚不清楚您的分类器是在测试数据上过度拟合,还是训练不足。你的问题对我来说听起来像是后一种情况。

    此外,在处理不平衡数据时,检查所有类别的测试/训练准确度是否同样好也很重要,因为您的分类器可能对某些类别的准确度“偏向”,但在其他类别上的准确度却很差.

    【讨论】:

    • 其实我的问题是如何知道分类器是否过拟合
    猜你喜欢
    • 2013-05-24
    • 1970-01-01
    • 2019-09-14
    • 2013-12-15
    • 2020-01-11
    • 1970-01-01
    • 2023-01-09
    • 2020-02-01
    • 2020-11-12
    相关资源
    最近更新 更多