【问题标题】:Can ensemble classifiers underperform the best single classifier?集成分类器的性能会不如最好的单一分类器吗?
【发布时间】:2018-06-20 15:21:18
【问题描述】:

我最近在多中心数据集的 MLR (R) 中运行了一个集成分类器。我注意到三个分类器(在不同数据模态上训练)的集成比最好的分类器差。 这似乎出乎我的意料。我使用逻辑回归(没有任何参数优化)作为简单分类器,使用偏最小二乘 (PLS) 判别分析作为超级学习器,因为基础学习器的预测应该是相关的。我还测试了不同的超级学习者,比如 NB 和逻辑回归。结果没有改变。

这是我的具体问题:

1) 你知道,这在原则上是否会发生? (我也google了一下,发现这个博客似乎表明它可以: https://blogs.sas.com/content/sgf/2017/03/10/are-ensemble-classifiers-always-better-than-single-classifiers/)

2) 特别是,如果您像我一样感到惊讶,您是否知道我可以在 mlr 中进行任何检查以确保没有错误。我尝试过使用不同的交叉验证方案(最初我使用了 leave-center-out CV,但由于一些中心提供的数据很少,我不确定这是否会导致超级学习者的奇怪模型拟合),但是它仍然成立。我还尝试结合不同的数据模式,它们给了我同样的现象。

我很高兴听到您是否经历过这种情况,如果没有,您是否知道问题可能是什么。

提前致谢!

【问题讨论】:

  • 合奏的哪些数据更差?保留测试集?训练集?还有什么?
  • 是的,这绝对会发生而且不是错误,尤其是当您在数据的不同部分训练不同的模型时。
  • 感谢两位的回答! @Gregor:测试集上的表现更差。我注意到这可能与交叉验证折叠的严重不平衡有关(由于每个中心的数据量不同)。当我不取每个 CV 折叠的平均性能的平均值,而是直接根据所有单个预测计算性能时,对于我昨天查看的大多数情况,集成确实显示出卓越的性能。

标签: r ensemble-learning mlr


【解决方案1】:

是的,这可能会发生 - 合奏并不总能保证更好的结果。 this cross-validate question

中还讨论了有关可能发生这种情况的更多详细信息

【讨论】:

    猜你喜欢
    • 2023-04-10
    • 2011-04-13
    • 2011-04-09
    • 1970-01-01
    • 2013-07-27
    • 2015-09-18
    • 2017-04-19
    • 2020-03-10
    • 2018-08-24
    相关资源
    最近更新 更多