大数据学习路线指导

栏目: 数据库 · 发布时间: 6年前

内容简介:保证电脑4核8G内存64位操作系统,尽量有ssd做系统盘,否则卡到你丧失信心。硬盘越大越好。1. 语言要求java刚入门的时候要求javase。

保证电脑4核8G内存64位操作系统,尽量有ssd做系统盘,否则卡到你丧失信心。硬盘越大越好。

1. 语言要求

java刚入门的时候要求javase。

scala是学习spark要用的基本使用即可,这个虽然不是必须的但是后期要想深入玩转spark,kafka,flink等源码的话,还是必须要掌握的。

网上发现的一套 linuxjava 的入门教程

链接: https://pan.baidu.com/s/1_O5yY0kcYwskNRiPYoUaSw 提取码: up9g

后期深入要求:

java NIO,netty,多线程,ClassLoader,jvm底层及调优等,rpc。

2. 操作系统要求

linux 基本的 shell 脚本的使用。

crontab的使用,最多。

cpu,内存,网络,磁盘等瓶颈分析及状态查看的工具。

scp,ssh,hosts的配置使用。

telnet,ping等网络排查命令的使用

3. sql基本使用

sql是基础,hive,sparksql等都需要用到,况且大部分企业也还是以数据仓库为中心,少不了sql。

sql统计,排序,join(大表之间join,大小表之间join等性能分析及优化),分组聚合操作数据倾斜及解决方案。

hive的外部表,分区表,分同表的使用等。

四by:sort by ,order by,cluster by,distribute by等

4. 大数据基本了解

Zookeeper,hadoop,hbase,hive,sqoop,flume,kafka,spark,storm等这些框架的作用及基本环境的搭建,要熟练,要会运维,瓶颈分析。

5. mapreduce及相关框架hive,sqoop

深入了解mapreduce的核心思想。尤其是shuffle,join,文件输入格式,map数目,reduce数目,调优等。

6. hive和hbase等仓库

hive和hbase基本是大数据仓库的标配。要回用,懂调优,故障排查。

hbase看浪尖hbase系列文章。hive后期更新。

除了翻看官网,大数据学习过程中这几个权威指南是必读几遍的:

链接: https://pan.baidu.com/s/1fUKGalit_CuuaVmkoAXiaA 提取码: yf4x

你要是没读两遍以上,我觉得你看再多视频和文章也是没用的,不系统。

7. 消息队列的使用

kafka基本概念,使用,瓶颈分析。看浪尖kafka系列文章。

kafka官网至关重要的学习工具,然后就是源码,建议阅读一下0.8.2.2的源码,很精彩的。

星球里分享了一套kafka系统教程。

8. 实时处理系统

spark Streaming ,structured streaming ,flink等使用及掌握,然后之间的对比分析。

Spark Streaming VS Flink

Structured Streaming VS  Flink

flink视频教程会陆续放到星球里~

9. spark core和sparksql

spark用于离线分析的两个重要模块。

Spark Core故名思议是Spark的核心内容,主要是掌握并理解RDD的含义及具体操作,然后就是任务分布式运行的原理,web ui的熟练使用,处理瓶颈分析,尤其是数据倾斜的发现及解决,原始数据小文件问题及解决方法,然后就是文件大小不均衡问题解决方法等。

spark sql 优化分析主要也是数据倾斜分析及解决,理解 sql 解析成rdd然后并行执行的原理,然后合理调整资源及并行度,其余就跟spark core一样了。

spark源码视频及spark 2.3.1的视频可以加入浪尖星球获取。

10. 最终方向决策

a),运维。(精通整套系统及故障排查,会写运维脚本,自动化运维平台开发等。)

b),数据分析。(包含业务sql,算法,机器学习,人工智能,低级的就是青春饭)

c),平台开发。(一般要进行框架的二次开发,或者团队进行特定需求平台的一次开发,这个适合代码能力强的,然后大公司估计会要求数据结构比较强,活跃于社区最好)

自学还是培训?

无基础的同学,培训之前先搞到视频通学一遍,防止盲目培训跟不上讲师节奏,浪费时间,精力,金钱。 很多都是半途而非的。

有基础的尽量搞点视频学基础,然后跟群里大牛交流,前提是人家愿意,

想办法跟大牛做朋友才是王道。看浪尖的文章,跟着文章思考操作。

至于难么?请看下图:

大数据学习路线指导

欢迎加入浪尖知识星球,与近520位球友一起共舞~

大数据学习路线指导

欢迎关注浪尖公众号一起学习进步

大数据学习路线指导


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

Pattern Recognition and Machine Learning

Pattern Recognition and Machine Learning

Christopher Bishop / Springer / 2007-10-1 / USD 94.95

The dramatic growth in practical applications for machine learning over the last ten years has been accompanied by many important developments in the underlying algorithms and techniques. For example,......一起来看看 《Pattern Recognition and Machine Learning》 这本书的介绍吧!

CSS 压缩/解压工具
CSS 压缩/解压工具

在线压缩/解压 CSS 代码

SHA 加密
SHA 加密

SHA 加密工具

HEX HSV 转换工具
HEX HSV 转换工具

HEX HSV 互换工具