随机森林和决策树,本文是随机森林和决策树的权威指南。
在我看来,大多数机器学习教程对初学者不够友好。
上个月,我为初学者写了一篇关于神经网络的介绍。本文将采用相同的策略,这意味着它再次假定机器学习的先验知识为零。我们将学习什么是随机森林,以及它们是如何从头开始工作的。
准备好了吗?就让我们一探究竟吧。
决策树????
一个随机森林????????????实际上是一群决策树????捆绑在一起(啊这就是为什么它被称为森林)。在进入森林之前,我们需要谈谈树木。
看看下面的数据集:
如果我告诉你有一个新的点,它的x坐标是1,你认为它会是什么颜色?
蓝色的,对吗?
你只是在脑中评估了一个决策树:
这是一个简单的决策树,其中一个决策节点测试x< 2。如果测试通过(x < 2),我们取左边的分支并选择蓝色。如果测试失败(),我们选择右边的分支并选择绿色。
数据集,在x=2处分割
决策树通常用于回答这类问题:给定一个标记数据集,我们应该如何对新样本进行分类?
标记:我们的数据集被标记是因为每个点都有一个类(颜色):蓝色或绿色。
分类:对一个新的数据点进行分类就是给它分配一个类(颜色)。
这是一个数据集,现在有3类,而不是2:
数据集v2
原来的决策树不再有效了。给定一个新的点(x,y):
- 如果,我们仍然可以放心地将其归类为绿色。
- 如果,我们不能立即将其归类为蓝色——它也可以是红色。
我们需要在决策树中添加另一个决策节点:
很简单,对吧?这就是决策树背后的基本思想。
训练决策树
后续内容,请参考极客教程的机器学习部分:
http://geek-docs.com/machine-learning/machine-learning-tutorial/random-forests.html