ROC与AUC
ROC全称是:受试者工作特征。
很多模型是为测试样本产生一个实值或概率预测,然后将这个预测值与一个分类阈值进行比较。
若大于阈值则分为正类。否则为反类。
AUC:ROC曲线下的面积。
非均等代价:为权衡不同类型错误所造成的不同损失。
在非均等代价下,我们所希望的不再是简单的最小化错误次数,而是希望最小化“总体代价”
比较检验
(本节默认以错误率为性能度量)
决策树
决策树是基于树结构来进行决策的。
一般的,一颗决策树包含一个根节点、若干个内部节点和若干个叶节点。其中,叶节点对应于决策结果。其他每个节点则对应于一个属性测试;每个节点包含的样本集合根据属性测试的结果被划分到子节点中;根节点包含样本全集。从根节点到每个叶节点的路径对应了一个判定测试序列。
决策树的目的就是产生一颗泛化能力强的决策树,即处理未见示例能力强的决策树。其基本流程遵循简单且直观的"分而治之"策略。
决策树的生成是一种递归过程,在决策树基本算法中,有三种情形会导致递归返回:
(1)当前节点包含的样本全属于同一个类别,无需划分
(2)当前的属性集合为空,或是所有样本在所有属性上取值相同。无需划分。
(3)当前节点包含的样本集合为空,不能划分。
其中,在(2)情形下,我们把当前节点标记为叶节点,并将其类别设定为该节点所包含样本最多的类别。(利用当前节点的后验分布)
在(3)情形下,同样把当前节点设为叶节点,但将其类别设定为其父节点所包含样本最多的类别。(把父节点的样本分布作为当前节点的先验分布)
划分选择
一般而言,随着划分过程不断进行,我们希望决策树的分支节点所包含的样本尽可能属于同一个类别,即节点的“纯度”越来越高。
信息增益
“信息熵”是度量样本集合纯度最常用的一种指标。假定当前样本集合D中第k类样本所占的比例为 (k=1,2,......|y|)则D的信息熵定义为:
信息增益越大,意味着使用该属性来进行划分所获得的“纯度提升”越大。假定a有V个可能的取值( , ........ ),若使用a来对样本集合D进行划分,则会产生V个分支节点,其中第v个分支节点包含了D中所有在属性a上取值为 的样本,记为 .我们根据上式可计算出信息熵,在考虑到不同的分支节点所包含的样本数不同,给分支点赋予权重| |/|D|,即样本数越多的分支节点的影响越大。于是我们可计算出用属性a对样本集D进行划分所获得的“信息增益”
著名的 ID3决策树学习算法 就是以信息增益为准则来选择划分属性。
决策树划分步骤:
1.算出根节点的信息熵
2.然后计算每个属性的信息增益,找出信息增益大的属性,以它为第一个划分依据。
3.然后对第一划分依据的每个分支节点,再次算出其他每个属性在此划分依据下的信息增益,再次找出信息增益大的属性进行划分。
4.以此类推,直至属性划分完毕。
增益率
实际上,信息增益准则对可能取值数目较多的属性有所偏好,为减少这种偏好所带来的不利影响。著名的C4.5算法提出了“增益率”来选择最优划分。
其中,
注意:增益率对可取值数目较少的属性也有所偏好,C4.5算法是一个启发式,并不直接选择增益率最大的候选划分为属性,而是:先从候选属性中找出信息增益高于平均水平,再从中选择增益率高的。
基尼系数
CART算法使用“基尼系数”来选择划分属性。
基尼值:
Gain(D)反映了从数据集D中随机抽取两个样本,其类别标记不一致的概率。Gain(D)越小,则数据集D的纯度越高。
属性a的基尼指数定义为:
我们在候选属性集合A中,选择那个使得划分后基尼指数最小的属性作为最优分属性。
剪枝处理
剪枝是决策树学习算法对付“过拟合”的主要手段。
决策树剪枝的基本策略有“预剪枝”和“后剪枝”
预剪枝:指在划分前先进行估计,若当前节点划分不能带来决策树泛化性能提升,则停止划分并将当前节点标记为叶节点。
后剪枝:先从训练集中生成一颗完整的决策树,然后自底向上地对非叶节点进行考察,若将该节点对应的子树替换为叶节点能带来决策树泛化性能的提升,则将该子树替换为叶节点。
用性能评估方法来判断决策树繁华能力的提升。
预剪枝VS后剪枝
预剪枝:使得决策树的很多分支都没有“展开”,还显著减少了决策树的训练的时间开销和测试时间开销。但另一方面有些分支的当前划分虽不能提升泛化性能、甚至可能导致泛化性能暂时下降,但在其基础上进行的后续划分却又可能导致性能显著提高;预剪枝基于“贪心”本质禁止这些分支展开,给预剪枝决策树带来欠拟合的风险。
后剪枝:后剪枝决策树通常比预剪枝决策树保留了更多的分支。一般情形下,后剪枝决策树的欠拟合风险很小,泛化能力往往优于预剪枝决策树。但相较于预剪枝,其训练时间开销要大得多。
连续与缺失值
连续值处理
因为连续取值的可取值数目不在有限,因此不能直接根据连续属性的可取值来对结点进行划分。这时,连续属性离散化技术可派上用场。最简单的就是采用二分法(C4.5决策树算法中采用的机制)
做法:
我们把连续相邻的取值的中位数作为候选划分点。
像离散属性值一样来考察这些划分点,选取最优的划分点进行样本集合的划分。
注意:与离散属性不同,若当前节点划分属性为连续属性,该属性还可作为其后代结点的划分属性。
缺失值处理
给定训练集D和属性a,令 表示D在属性a上没有缺失值的样本子集。假定属性a有V个可取值{ , ........ },令 表示 中在属性a上取值为 的样本子集, 表示 中属于第K类的样本子集,则显然有 , 。 为权重。
对属性a, 表示无缺失值样本所占的比例。 表示无缺失值样本中第k类所占的比例, 表示无缺失值样本在属性a上取值 的样本所占的比例。
信息增益公式为:
其中,
做法:
若样本x在划分属性a上的取值已知,则将x划入与其取值对应的子节点,且样本权值在子节点中保持为 。若样本x在划分属性a上的取值未知,则将x同时划入所有子节点,且样本x在与属性值 对应的子节点中调整为 . 。直观的看。这就是让同一个样本以不同的概率划入到不同的子节点中。
多变量决策树
我们把每个属性视为坐标空间中的一个坐标轴,则d个属性描述的样本就对应可d维空间中的一个数据点。对样本分类则意味着在这个坐标空间中寻找不同类样本之间的分类边界。如果分类边界每一段都是与坐标轴平行的,这样的使得学习结果有了较好的可解释性。但在实际中,决策树更多是很复杂的,这时我们就采用:斜划分。多变量决策树就是实现这个的决策树。在多变量决策树中,不再是为每一个非叶节点寻找一个最优划分而是试图建立一个合适的线性分类器。
本文由小白学 Python 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。
以上所述就是小编给大家介绍的《机器学习笔记一》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!
猜你喜欢:- [机器学习]机器学习笔记整理09- 基于SVM图像识别
- 机器学习实验笔记
- python机器学习笔记:EM算法
- 机器学习笔记(五):轻松看透朴素贝叶斯
- 算法/NLP/深度学习/机器学习面试笔记
- 机器学习系统SyeML笔记三——自动微分
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
Python机器学习基础教程
[德]安德里亚斯·穆勒、[美]莎拉·吉多 / 张亮 / 人民邮电出版社 / 2018-1 / 79.00元
本书是机器学习入门书,以Python语言介绍。主要内容包括:机器学习的基本概念及其应用;实践中最常用的机器学习算法以及这些算法的优缺点;在机器学习中待处理数据的呈现方式的重要性,以及应重点关注数据的哪些方面;模型评估和调参的高级方法,重点讲解交叉验证和网格搜索;管道的概念;如何将前面各章的方法应用到文本数据上,还介绍了一些文本特有的处理方法。一起来看看 《Python机器学习基础教程》 这本书的介绍吧!
Base64 编码/解码
Base64 编码/解码
HEX CMYK 转换工具
HEX CMYK 互转工具