大数据学习路线指导

栏目: 数据库 · 发布时间: 6年前

内容简介：保证电脑4核8G内存64位操作系统，尽量有ssd做系统盘，否则卡到你丧失信心。硬盘越大越好。1. 语言要求java刚入门的时候要求javase。

保证电脑4核8G内存64位操作系统，尽量有ssd做系统盘，否则卡到你丧失信心。硬盘越大越好。

1. 语言要求

java刚入门的时候要求javase。

scala是学习spark要用的基本使用即可，这个虽然不是必须的但是后期要想深入玩转spark，kafka，flink等源码的话，还是必须要掌握的。

网上发现的一套 linux 和 java 的入门教程

链接: https://pan.baidu.com/s/1_O5yY0kcYwskNRiPYoUaSw 提取码: up9g

后期深入要求：

java NIO，netty，多线程，ClassLoader，jvm底层及调优等，rpc。

2. 操作系统要求

linux 基本的 shell 脚本的使用。

crontab的使用，最多。

cpu，内存，网络，磁盘等瓶颈分析及状态查看的工具。

scp，ssh，hosts的配置使用。

telnet，ping等网络排查命令的使用

3. sql基本使用

sql是基础，hive，sparksql等都需要用到，况且大部分企业也还是以数据仓库为中心，少不了sql。

sql统计，排序，join（大表之间join，大小表之间join等性能分析及优化），分组聚合操作数据倾斜及解决方案。

hive的外部表，分区表，分同表的使用等。

四by：sort by ，order by，cluster by，distribute by等

4. 大数据基本了解

Zookeeper，hadoop，hbase，hive，sqoop，flume，kafka，spark，storm等这些框架的作用及基本环境的搭建，要熟练，要会运维，瓶颈分析。

5. mapreduce及相关框架hive，sqoop

深入了解mapreduce的核心思想。尤其是shuffle，join，文件输入格式，map数目，reduce数目，调优等。

6. hive和hbase等仓库

hive和hbase基本是大数据仓库的标配。要回用，懂调优，故障排查。

hbase看浪尖hbase系列文章。hive后期更新。

除了翻看官网，大数据学习过程中这几个权威指南是必读几遍的：

链接: https://pan.baidu.com/s/1fUKGalit_CuuaVmkoAXiaA 提取码: yf4x

你要是没读两遍以上，我觉得你看再多视频和文章也是没用的，不系统。

7. 消息队列的使用

kafka基本概念，使用，瓶颈分析。看浪尖kafka系列文章。

kafka官网至关重要的学习工具，然后就是源码，建议阅读一下0.8.2.2的源码，很精彩的。

星球里分享了一套kafka系统教程。

8. 实时处理系统

spark Streaming ，structured streaming ，flink等使用及掌握，然后之间的对比分析。

Spark Streaming VS Flink

Structured Streaming VS Flink

flink视频教程会陆续放到星球里～

9. spark core和sparksql

spark用于离线分析的两个重要模块。

Spark Core故名思议是Spark的核心内容，主要是掌握并理解RDD的含义及具体操作，然后就是任务分布式运行的原理，web ui的熟练使用，处理瓶颈分析，尤其是数据倾斜的发现及解决，原始数据小文件问题及解决方法，然后就是文件大小不均衡问题解决方法等。

spark sql 优化分析主要也是数据倾斜分析及解决，理解 sql 解析成rdd然后并行执行的原理，然后合理调整资源及并行度，其余就跟spark core一样了。

spark源码视频及spark 2.3.1的视频可以加入浪尖星球获取。

10. 最终方向决策

a),运维。（精通整套系统及故障排查，会写运维脚本，自动化运维平台开发等。）

b),数据分析。（包含业务sql，算法，机器学习，人工智能，低级的就是青春饭）

c),平台开发。（一般要进行框架的二次开发，或者团队进行特定需求平台的一次开发，这个适合代码能力强的，然后大公司估计会要求数据结构比较强，活跃于社区最好）

自学还是培训？

无基础的同学，培训之前先搞到视频通学一遍，防止盲目培训跟不上讲师节奏，浪费时间，精力，金钱。很多都是半途而非的。

有基础的尽量搞点视频学基础，然后跟群里大牛交流，前提是人家愿意，

想办法跟大牛做朋友才是王道。看浪尖的文章，跟着文章思考操作。

至于难么？请看下图：

大数据学习路线指导

欢迎加入浪尖知识星球，与近520位球友一起共舞～

大数据学习路线指导

欢迎关注浪尖公众号一起学习进步

大数据学习路线指导

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

数据结构与算法：python语言实现

迈克尔.·T·古德里奇、罗伯托·塔玛西亚、迈克尔·H·戈德瓦瑟 / 张晓、赵晓南 / 机械工业出版社 / 2018-9 / 109.00元

本书采用Python语言讨论数据结构和算法，详细讲解其设计、分析与实现过程，是一本内容全面且特色鲜明的教材。书中将面向对象视角贯穿始终，充分利用Python语言优美而简洁的特点，强调代码的健壮性和可重用性，关注各种抽象数据类型以及不同算法实现策略的权衡。一起来看看《数据结构与算法：python语言实现》这本书的介绍吧!

码农工具

大数据学习路线指导

网上发现的一套 linux 和 java 的入门教程

数据结构与算法：python语言实现

HTML 压缩/解压工具

URL 编码/解码

Markdown 在线编辑器