在学习随机森林的时候,经常会看到这么一句话“ 自助采样法给bagging带来的好处就是:由于每个学习器只是使用了%63.2的数据,剩下的约%36.8的样本可以用作验证集来对泛化性能进行“包外估计”。

那么这个63.2%是怎么来的呢?假设我们有n个样本,有放回的进行抽取,那么每个样本不被抽取的概率为\(1 - \dfrac{1}{n}\)。我们需要抽取n轮,那么某个样本一直不被抽到的概率为

\[p=(1 - \dfrac{1}{n})^n \]

当n足够大的时候有

\[p = \lim_{n\to +\infty}(1 - \dfrac{1}{n})^n \]

这个p该怎么算?实际上在课本里有一个公式

\[e^x=\lim_{n\to\infty}(1 + \dfrac{x}{n})^n \]

当x=-1的时候对应着上述的p,由此可得自助采样没有采到的样本大概占整个样本集的\(e^{-1}\),那么自助采样包含训练集里的样本即为\(1 - e^{-1} \approx 0.632 \approx \dfrac{2}{3}\)

相关文章:

  • 2022-12-23
  • 2021-07-05
  • 2021-12-04
  • 2021-05-27
  • 2022-12-23
  • 2022-12-23
  • 2021-04-08
  • 2021-12-10
猜你喜欢
  • 2022-12-23
  • 2021-11-22
  • 2021-09-29
  • 2022-12-23
  • 2021-12-29
  • 2021-12-28
相关资源
相似解决方案