内容简介:R做机器学习简易教程
作者:陆勤本文介绍如何利用R语言做一个完整的机器学习项目。一个小项目,端到端,遵循机器学习的实施的工作流,系统地完成项目。
[TOC]
1 搭建R机器学习环境
搭建R机器学习环境是一件简单而有趣的事情。
1.1 R软件下载和安装
R语言是跨平台,根据电脑操作系统和位数选择下载和安装合适的R软件。 R软件下载地址: R官网 。
1.2 R机器学习包
R做机器学习需要安装R包。R中有很多R包可以完成机器学习里面的某些任务,推荐阅读《 RForML核心包 》系列文章。 本文使用caret包,安装和加载代码。
if(!require('caret')) { install.packages('caret') require('caret') }
caret包更详细的资料见** The caret Package **。
2 业务问题和数据理解
业务问题和数据理解,关键要解决好这些问题:
- 为什么要做这个机器学习项目?
- 这个机器学习项目是做什么?
- 做这个机器学习项目需要什么数据?数据的准确性和完整性目前是什么状况?
本文机器学习项目的目的是介绍R语言解决一个具有确定性类别的分类问题,分类是我们擅长的事情,如何把这种事情让机器来做,从而实现自动化和智能化,这富有挑战也饱含意义。 通过这样的一个项目,给更多人如何基于R语言做机器学习项目提供一种整体思路和系统方案。 本文选择的iris数据集,它是一个经典的公开的数据集。iris数据集详细介绍见 Iris flower data set
3 数据准备
当知道了为什么要做这个机器学习项目和这个机器学习是要做什么后,当确定了做这个机器学习项目的数据集是什么以及在哪里后,这个时候,就到了数据准备阶段了。 数据准备阶段是需要花费大量时间和精力去做的事情。 数据准备主要包括对数据的处理和探索。
4 数据建模
5 模型评价
6 模型应用
7 总结
一个完整的机器学习项目,包括业务问题、数据理解、数据准备、数据建模、模型评价和模型应用,这些环节相辅相成,构成一个系统。因此,在做机器学习项目的时候,每个环节里面要做什么,为什么要做,都要清清楚楚,然后就是怎么有效地做。不断迭代,持续优化的互联网文化和精神,在做机器学习项目中,依然焕发生机。
您在阅读中,有什么建议或者想法,请留言。 想加入数据人圈子,请加微信 luqin360 。
数据人网是数据人学习、交流和分享的平台http://shujuren.org 。专注于从数据中学习到有用知识。 平台的理念:人人投稿,知识共享;人人分析,洞见驱动;智慧聚合,普惠人人。 您在数据人网平台,可以1)学习数据知识;2)创建数据博客;3)认识数据朋友;4)寻找数据工作;5)找到其它与数据相关的干货。 我们努力坚持做原创,聚合和分享省时有用的数据知识! 我们都是数据人,数据是有价值的,坚定不移地实现从数据到商业价值的转换!
可以转载,严禁修改,请务必注明出自数据人网和原文链接
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
数据挖掘导论
Pang-Ning Tan、Michael Steinbach、Vipin Kumar / 范明、范宏建 / 人民邮电出版社 / 2010-12-10 / 69.00元
本书全面介绍了数据挖掘,涵盖了五个主题:数据、分类、关联分析、聚类和异常检测。除异常检测外,每个主题都有两章。前一章涵盖基本概念、代表性算法和评估技术,而后一章讨论高级概念和算法。这样读者在透彻地理解数据挖掘的基础的同时,还能够了解更多重要的高级主题。 本书是明尼苏达大学和密歇根州立大学数据挖掘课程的教材,由于独具特色,正式出版之前就已经被斯坦福大学、得克萨斯大学奥斯汀分校等众多名校采用。 ......一起来看看 《数据挖掘导论》 这本书的介绍吧!