【发布时间】:2018-06-20 15:21:18
【问题描述】:
我最近在多中心数据集的 MLR (R) 中运行了一个集成分类器。我注意到三个分类器(在不同数据模态上训练)的集成比最好的分类器差。 这似乎出乎我的意料。我使用逻辑回归(没有任何参数优化)作为简单分类器,使用偏最小二乘 (PLS) 判别分析作为超级学习器,因为基础学习器的预测应该是相关的。我还测试了不同的超级学习者,比如 NB 和逻辑回归。结果没有改变。
这是我的具体问题:
1) 你知道,这在原则上是否会发生? (我也google了一下,发现这个博客似乎表明它可以: https://blogs.sas.com/content/sgf/2017/03/10/are-ensemble-classifiers-always-better-than-single-classifiers/)
2) 特别是,如果您像我一样感到惊讶,您是否知道我可以在 mlr 中进行任何检查以确保没有错误。我尝试过使用不同的交叉验证方案(最初我使用了 leave-center-out CV,但由于一些中心提供的数据很少,我不确定这是否会导致超级学习者的奇怪模型拟合),但是它仍然成立。我还尝试结合不同的数据模式,它们给了我同样的现象。
我很高兴听到您是否经历过这种情况,如果没有,您是否知道问题可能是什么。
提前致谢!
【问题讨论】:
-
合奏的哪些数据更差?保留测试集?训练集?还有什么?
-
是的,这绝对会发生而且不是错误,尤其是当您在数据的不同部分训练不同的模型时。
-
感谢两位的回答! @Gregor:测试集上的表现更差。我注意到这可能与交叉验证折叠的严重不平衡有关(由于每个中心的数据量不同)。当我不取每个 CV 折叠的平均性能的平均值,而是直接根据所有单个预测计算性能时,对于我昨天查看的大多数情况,集成确实显示出卓越的性能。
标签: r ensemble-learning mlr