内容简介:结构化数据上的机器学习大杀器XGBoost
GBoost是一个机器学习算法工具,它的原理本身就并不难理解,而且你并不需要彻底搞懂背后的原理就能把它用得呼呼生风。
它的威力有多强?
自从2014年9月份在 Kaggle 的希格斯玻色子机器学习大赛中夺魁以来,XGBoost 与深度学习两个算法垄断了 Kaggle 大赛的大部分冠军。
现在 Kaggle 大赛的情况基本是这样的,凡是非结构化数据相关,比如语音、图像,基本都是深度学习获胜,凡是结构化数据上的竞赛,基本都是 XGBoost 获胜。要知道大部分的业务数据,都是以良好格式存储在关系数据库中的结构化数据,这也就是说,跟行业应用、业务优化这些真金白银息息相关的场景里,XGBoost是目前最好用的大杀器之一。
如果时间倒退两年,在2015年,只要你用 XGBoost 算法参赛,不用做特别优化,在很多结构化数据科学竞赛中就排到前十。尤其是 2015 年下半年,XGBoost 横扫 Kaggle 大赛,冠军拿到手软。
看看这些冠军们怎么评价 XGBoost
2015年7月 Avito 上下文广告点击大赛冠军 Owen Zhang 说:“要是你犹豫不决,不知如何是好,就放 XGBoost 出来咬。”
2015年8月卡特彼勒钢管价格预测大赛冠军四人组说:“XGBoost是我们手上> 最牛的单一模型算法。”
2015年8月物业检查预测大赛冠军Qingchen Wang 说:“我只用 XGBoost”。
2015年9月优惠券销售预测大赛冠军 Halla Yang 说:“在监督学习算法中我只使用 Gradient Boosting,而在 Gradient Boosting 算法的实现中我只使用 XGBoost。”
2015年10月 True Native 大赛冠军 Mad Professor 说:“我已经拿了好几个Kaggle竞赛冠军了,你们可以相信我的话,XGBoost真的是个牛逼的全能算法,你值得拥有。”
但比较奇怪的是,然而只要离开这个小小的圈子,在广大的数据科学的蛮荒之地,绝大多数人都只知有深度学习,而不知有 XGBoost。我想大概可以归结为两方面原因。
- 第一是公众的注意力集中在人工智能下围棋、机器人、识别人脸、自动驾驶这些性感的应用场景里,对于专业领域内的应用,即便大脑知道它们很重要、很有价值,但小脑提不起兴趣。
但这种态度不科学啊!要知道深度学习虽然具有革命性,但是你去看看 Kaggle 上来自真实需求的那些竞赛课题,会发现大多数还是结构化行业数据的分析。预测客户的回头率啊,预测产品寿命,预测病人是否爽约,分析干系人是否有作案嫌疑,计算产品在各城市最佳的铺货分布,等等。这些项目背后是各行各业对 AI 的迫切而真实的需求,是几千上万亿美元的潜在市场。而这正是 XGBoost 这一类算法可以驰骋的舞台,所以我们当然应该关注。
- 第二是网上现有的 XGBoost 文章,差不多都是给正在学习机器学习的人准备的“课外读物”,它假设你已经花很长时间复习了数学基础,正在学习20个机器学习算法,而 Gradient Boosting 只是其中之一,XGBoost 只是 工具 之一。如果你不是这种情况,那就很难看懂这些文章。
但其实使用 XGBoost 也不需要掌握那么多其他算法啊,也不需要自底向上一层一层的积累啊。跟学习深度学习类似,如果你的目标就是掌握这一两个大杀器,那你完全可以单刀直入,在比较短的时间里形成单点突破。这是今天学习和使用 AI 技术的一个可行的途径。甚至对于有经验的开发者来说,这是一个更优的选择。
XGBoost 该红不红,其实受损失的最终还是用户和学习者。所以我们觉得应该把 XGBoost 这个算法单独抽出来,从基础的原理到算法分析,从工具使用到工程经验,来一个单点突破。
能够讲这个单点突破课程的人不多。我们邀请到有多年一线机器学习教学经验的中科院专家,精心剪裁出一个 XGBoost 核心突破课程——《XGBoost从基础到实战》。课程传送门: http://edu.ai100.com.cn/course/57
课程目标是能够在10个小时之内使你达到能动手开发模型的程度。如果你在学习机器学习,那这个课程能够帮助你纵向掌握 XGBoost 及其所有相关基础知识,在你武器库里添加一个大杀器。
如果你急于用机器学习来解决工作中的一个问题,又没有很多时间完整学习,那么请考虑 XGBoost 吧。也许很多高手学了一大圈之后,发现最后还是 XGBoost 好用。
以上所述就是小编给大家介绍的《结构化数据上的机器学习大杀器XGBoost》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!
猜你喜欢:本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
算法技术手册
George T. Heineman、Gary Pollice、Stanley Selkow / 杨晨、李明 / 机械工业出版社 / 2010-3 / 55.00元
《算法技术手册》内容简介:开发健壮的软件需要高效的算法,然后程序员们往往直至问题发生之时,才会去求助于算法。《算法技术手册》讲解了许多现有的算法,可用于解决各种问题。通过阅读它,可以使您学会如何选择和实现正确的算法,来达成自己的目标。另外,书中的数学深浅适中,足够使您可以了解并分析算法的性能。 较之理论而言,《算法技术手册》更专注于应用。《算法技术手册》提供了高效的代码解决方案,使用多种语言......一起来看看 《算法技术手册》 这本书的介绍吧!