我们先来看一个案例。

2012年中国15岁至59岁的劳动年龄人口数量为9.37亿人,比上年末减少345万人,下降幅度为0.6个百分点。这是多年增长后劳动年龄人口首次下降。这一人口结构变化趋势意味着在中国人口红利消失,老龄化人口越来越多。

万一将来,你的亲戚或者家人有可能会去医院看病,选择哪家医院更好呢?

假设在每个医院最近收治的1000例患者中,A医院有900例患者存活。然而,B医院只有800例患者存活。

这样看起来,A医院的存活更高,应该选择A医院。

你看到的就是真实的吗?

你的选择真的是正确的吗?

光看患者整体时,我们可能注意不到“数据构成要素的差异“。现在根据患者的健康状况,我们将每家医院入院的总人数拆解为两组,一组是轻症患者。一组是重症患者。

你看到的就是真实的吗?

然后我们再来计算患者存活率,会有什么发现呢?

我们来比较A医院和B医院的重症患者组。A医院有100例入院时是重症患者,其中20例存活。B医院有400例入院时是重症患者,其中200例被救活了。

所以,对于重症患者,去B医院的存活率更高,是更好的选择。

你看到的就是真实的吗?

那如果亲人入院时是轻症患者呢?同样的方法,出人意料,轻症患者在B医院的生存率超过97%,B医院依旧的更好的选择。

通过拆解数据,我们发现了和一开始截然相反的结论,这种现象被称为“辛普森悖(bei)论”(simpson‘s paradox),也就是在有些情况下,考察数据整体和考察数据的不同部分,会得到相反的结论。

辛普森悖论时不时出现在现实生活中。英国一项调查显示,在20年里,吸烟者生存率高于不吸烟者。但根据参与者的年龄分组后,发现不吸烟组人群的平均年龄显著较高,所以,不吸烟组在随访过程中更容易死亡,恰巧是因为不吸烟者通常更长寿。

如何避免辛普森悖论?

只看数据整体,我们可能注意不到“数据内部各个部分构成的差异。如果忽略这种差异进行比较,就有可能导致无法察觉该差异所造成的影响。

正如前面的案例,关注数据整体,也就是入院的全部患者。和关注数据内部的不同部分,也就是按健康状态,将患者拆解为两组数据,就看到了不同的风景。

这就好比我们玩过的俄罗斯套娃,整体看是一个,拆解开以后里面还有其他东西。

你看到的就是真实的吗?

所以,在遇到问题时,我们不仅要分析整体情况,还要拆解开看内部的情况。

推荐:“活在当下”是最误导人的建议

你看到的就是真实的吗?

相关文章: