随机森林算法

栏目: 数据库 · 发布时间: 6年前

内容简介:你好,你在本文中,可以看到这些内容:随机森林是一种非参数的集成学习方法,森林里面的每一棵

你好,你在本文中,可以看到这些内容:

  • 随机森林是什么?
  • 随机森林如何工作?
  • 随机森林的优势
  • 随机森林的应用

随机森林算法

随机森林是什么?

随机森林是一种非参数的集成学习方法,森林里面的每一棵 决策树 是通过重采样训练数据集而生成的。与单一树对比,随机森林算法表现出更好的模型性能。

随机森林如何工作?

随机森林如何工作?

要解答这个问题,我们首先要知道集成学习思想。它是把多个“弱学习器”组合在一起形成一个“强学习器”。弱学习器,它仅是稍好于随机性预判的一种学习器。集成学习里面的弱学习器可以是相同类型的算法(比方说:决策树,神经网络等),也可以是不同类型的算法。

随机森林算法 = 集成学习思想 + 决策树算法

随机森林算法可以做分类,也可以做回归。 对于分类任务,基于森林里面每一颗树的分类结果采用投票机制确定最终分类类别;对于回归任务,基于森林里面的每一颗树的分类结果做平均。

随机森林算法工作原理:

  • 对训练数据集有放回地抽样N次,生成了N份训练数据集。这种方法叫做bootstrap。因为是采用bootstrap方法,每份训练数据集都是原始训练数据集的子集,通过计算分析,会发现越有63%的原始样本会在抽样后的训练集中至少出现一次。抽样后的训练集中没有包含的原始样本称为袋外样本(OOB),OOB的错误率可以用来评估特征的重要性。
  • 对于每一份训练数据集,从原始变量集中随机选取一部分变量集,来构建决策树,每颗决策树最大程度生长。每颗决策树用来做相应预测。
  • 最后的预测结果由每颗决策树的分类结果投票决定或者每颗决策树的回归结果按权重计算而来。

随机森林算法

随机森林里面每棵树是弱学习器,但随机森林是强学习器。

随机森林的优势

  • 随机森林保持决策树的许多优势。它容易构建和实施,并且也有好的结果。
  • 对数据表示要求不高。
  • 它较好地克服了单一决策树的过拟合问题。

随机森林的应用

  • Chengwei Liu, Yixiang Chan等人利用随机森林算法解决金融业里面欺诈检测问题。论文连接:https://www.researchgate.net/publication/279783850_Financial_Fraud_Detection_Model_Based_on_Random_Forest

  • Majdi Rabia 利用随机森林算法做期权定价。文章阅读: https://towardsdatascience.com/example-of-random-forest-application-in-finance-option-pricing-d6ee06356c6e

等等

您有什么想法或者见解,请留言。


以上所述就是小编给大家介绍的《随机森林算法》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

鸟哥的Linux私房菜

鸟哥的Linux私房菜

鸟哥 / 人民邮电出版社 / 2010-6-28 / 88.00元

本书是最具知名度的Linux入门书《鸟哥的Linux私房菜基础学习篇》的最新版,全面而详细地介绍了Linux操作系统。全书分为5个部分:第一部分着重说明Linux的起源及功能,如何规划和安装Linux主机;第二部分介绍Linux的文件系统、文件、目录与磁盘的管理;第三部分介绍文字模式接口 shell和管理系统的好帮手shell脚本,另外还介绍了文字编辑器vi和vim的使用方法;第四部分介绍了对于系......一起来看看 《鸟哥的Linux私房菜》 这本书的介绍吧!

SHA 加密
SHA 加密

SHA 加密工具

UNIX 时间戳转换
UNIX 时间戳转换

UNIX 时间戳转换

正则表达式在线测试
正则表达式在线测试

正则表达式在线测试