CART (Classification And Regression Tree)

栏目: 编程工具 · 发布时间: 5年前

内容简介：求 $R_m$：Split s divide the current node into two children.比如，对于 t，$\text{Left-Child }= {(y_i, x_i) : x_{ij} ≤ t}\ 而\ \times ext{Right-Child }= {(y_i, x_i) : x_{ij} > t}$

求 $R_m$：

扩张树：用贪心，上至下递归分区方法
split function 选择最好的特征 $j*$ 和该特征最好的值 $t*$

Split s divide the current node into two children.

比如，对于 t，$\text{Left-Child }= {(y_i, x_i) : x_{ij} ≤ t}\ 而\ \times ext{Right-Child }= {(y_i, x_i) : x_{ij} > t}$

2D 的例子

CART (Classification And Regression Tree)

Splitting 规则

1. Regression

CART (Classification And Regression Tree)

2. Classification

CART (Classification And Regression Tree)

不纯度函数(impurity function)

当所有样本都属于同一类时候 $I$ 取最小值. 即 $I$ 在点 $(1,0,…,0),(0,1,…,0),…,(0,..,0,1)$ 取最小值.
当样本中每个类目下样本个数相同时I取最大值. 即 $I$ 在点 $(1/k,..,1/k)$ 取最大值.

Prunning 剪枝

代价复杂性剪枝 (cost complexity pruning)

$$min \ \ \frac {1}{N} \sum^{\vert T \vert}_{m=1} \sum_{x_i \in {R_m}} L(y_i, w_m) + \alpha \vert T\vert$$

$\vert T \vert$ 是 termainal nodes 的总数

$L(·, ·)$ 是 loss function, 例如 $L(yi, f (x_i)) = L(x_i,w_m) = (y_i − w_m)^2$

$w_m$ 是与 $R_m$ 对应的预测值 $\rightarrow$ 也就是 $R_m$ 中训练集的平均值

算法

CART (Classification And Regression Tree)

Multiple trees:

bagging 袋装法
random forests 随机森林
boosting 提升法

boosting

基本思想：

在分类问题中，通过改变训练样本的权重，学习多个分类器，并将这些分类器进行线性组合，提高分类器的性能。

历史：

PAC learning framework (1990)
AdaBoost methods (1996)
gradient boosting (2000)

weak learner:

classifiers whose error rate is slightly better than random guessing

Boosting 改变训练样本的权重，产生一系列的分类器：

CART (Classification And Regression Tree)

最终的分类器可以表示为：

$\alpha_m$：分类系数（由 boosting 算法计算得出）

AdaBoost

CART (Classification And Regression Tree)

随机森林

你可能会问为什么不直接使用一个决策树？这种分类器堪称完美，因为根本不会犯任何错误！但要记住一个重点：决策树只是不会在训练数据上犯错。

随机森林是由许多决策树构成的模型。这不仅仅是森林，而且是随机的，这涉及到两个概念：

随机采样数据点
基于特征的子集分割节点

随机森林的构建过程

决策树相当于一个大师，通过自己在数据集中学到的知识对于新的数据进行分类。但是俗话说得好，一个诸葛亮，玩不过三个臭皮匠。随机森林就是希望构建多个臭皮匠，希望最终的分类效果能够超过单个大师的一种算法。

那随机森林具体如何构建呢？有两个方面：数据的随机性选取，以及待选特征的随机选取。

数据的随机选取

首先，从原始的数据集中采取有放回的抽样，构造子数据集，子数据集的数据量是和原始数据集相同的。不同子数据集的元素可以重复，同一个子数据集中的元素也可以重复。第二，利用子数据集来构建子决策树，将这个数据放到每个子决策树中，每个子决策树输出一个结果。最后，如果有了新的数据需要通过随机森林得到分类结果，就可以通过对子决策树的判断结果的投票，得到随机森林的输出结果了。

假设随机森林中有3棵子决策树，2棵子树的分类结果是A类，1棵子树的分类结果是B类，那么随机森林的分类结果就是A类。

以上所述就是小编给大家介绍的《CART (Classification And Regression Tree)》，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对码农网的支持！

查看所有标签

猜你喜欢:

CART (Classification And Regression Tree)

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

编程之道

杰弗雷﹒詹姆斯 / 清华大学出版社 / 1999-05 / 18.00元

本书出自美国一位善于进行哲学思考、有十多年工作经验的程序设计师——杰弗雷·詹姆斯之手，他以一种敏锐的眼光审视着发生在程序设计室里的各种各样的小故事，并利用古老的道家思想对其进行分析。简单的故事蕴含深奥的道理，是本书的最大特色。本书语言优美，比喻生动，可读性极强。一起来看看《编程之道》这本书的介绍吧!

码农工具

CART (Classification And Regression Tree)

2D 的例子

Splitting 规则

1. Regression

2. Classification

不纯度函数(impurity function)

Prunning 剪枝

算法

boosting

历史：

AdaBoost

随机森林

随机森林的构建过程

数据的随机选取

编程之道

HTML 压缩/解压工具

MD5 加密

SHA 加密