内容简介:你好,你在本文中,可以看到这些内容:随机森林是一种非参数的集成学习方法,森林里面的每一棵
你好,你在本文中,可以看到这些内容:
- 随机森林是什么?
- 随机森林如何工作?
- 随机森林的优势
- 随机森林的应用
随机森林是什么?
随机森林是一种非参数的集成学习方法,森林里面的每一棵 决策树 是通过重采样训练数据集而生成的。与单一树对比,随机森林算法表现出更好的模型性能。
随机森林如何工作?
随机森林如何工作?
要解答这个问题,我们首先要知道集成学习思想。它是把多个“弱学习器”组合在一起形成一个“强学习器”。弱学习器,它仅是稍好于随机性预判的一种学习器。集成学习里面的弱学习器可以是相同类型的算法(比方说:决策树,神经网络等),也可以是不同类型的算法。
随机森林算法 = 集成学习思想 + 决策树算法
随机森林算法可以做分类,也可以做回归。 对于分类任务,基于森林里面每一颗树的分类结果采用投票机制确定最终分类类别;对于回归任务,基于森林里面的每一颗树的分类结果做平均。
随机森林算法工作原理:
- 对训练数据集有放回地抽样N次,生成了N份训练数据集。这种方法叫做bootstrap。因为是采用bootstrap方法,每份训练数据集都是原始训练数据集的子集,通过计算分析,会发现越有63%的原始样本会在抽样后的训练集中至少出现一次。抽样后的训练集中没有包含的原始样本称为袋外样本(OOB),OOB的错误率可以用来评估特征的重要性。
- 对于每一份训练数据集,从原始变量集中随机选取一部分变量集,来构建决策树,每颗决策树最大程度生长。每颗决策树用来做相应预测。
- 最后的预测结果由每颗决策树的分类结果投票决定或者每颗决策树的回归结果按权重计算而来。
随机森林里面每棵树是弱学习器,但随机森林是强学习器。
随机森林的优势
- 随机森林保持决策树的许多优势。它容易构建和实施,并且也有好的结果。
- 对数据表示要求不高。
- 它较好地克服了单一决策树的过拟合问题。
随机森林的应用
-
Chengwei Liu, Yixiang Chan等人利用随机森林算法解决金融业里面欺诈检测问题。论文连接:https://www.researchgate.net/publication/279783850_Financial_Fraud_Detection_Model_Based_on_Random_Forest
-
Majdi Rabia 利用随机森林算法做期权定价。文章阅读: https://towardsdatascience.com/example-of-random-forest-application-in-finance-option-pricing-d6ee06356c6e
等等
您有什么想法或者见解,请留言。
以上所述就是小编给大家介绍的《随机森林算法》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!
猜你喜欢:- 通俗易懂--决策树算法、随机森林算法讲解(算法+案例)
- 随机森林算法
- 利用随机森林算法预测 Titanic 乘客生还概率
- 随机森林算法预测法官判决,准确度优于人类水平
- 随机森林算法 4 种实现方法对比测试:DolphinDB 速度最快,XGBoost 表现最差
- 随机森林的直观理解
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
模式识别
(希)Sergios Theodoridis、(希)Konstantinos Koutroumbas / 电子工业出版社 / 2010-2 / 75.00元
本书全面阐述了模式识别的基础理论、最新方法以及各种应用。模式识别是信息科学和人工智能的重要组成部分,主要应用领域有图像分析、光学字符识别、信道均衡、语言识别和音频分类等。本书在完美地结合当前的理论与实践的基础上,讨论了贝叶斯分类、贝叶斯网络、线性和非线性分类器设计、上下文相关分类、特征生成、特征选取技术、学习理论的基本概念以及聚类概念与算法。与前一版相比,增加了大数据集和高维数据相关的最新算法,这......一起来看看 《模式识别》 这本书的介绍吧!