面试大数据分析师,你需要掌握的基础技术栈

栏目: 数据库 · 发布时间: 5年前

内容简介:在数据时代的今天,大数据行业是最热门的行业之一。在大数据行业中,大数据分析师是需求量最大的岗位,很多高校也都专门开设了大数据专业,培养数据分析方面的人才。今天我们就这个话题,结合笔者多年的面试官经历,来聊一聊,在日常的工作中,大数据分析师的核心工作内容便是从大量数据中,通过数据处理、统计分析和算法挖掘等技术手段,将数据转换成有效的信息,从而进一步转化为知识并内化为智慧。

写在前面

本文主要面向的读者是在校计算机/软件相关专业想踏足大数据领域寻找相关实习机会的学生,以及刚工作1-2年想转大数据方向的同学。

读完本文,你将收获大数据技术学习的基本方向,以及在面试前需要准备和复习的常见面试题。

正文:

在数据时代的今天,大数据行业是最热门的行业之一。在大数据行业中,大数据分析师是需求量最大的岗位,很多高校也都专门开设了大数据专业,培养数据分析方面的人才。

今天我们就这个话题,结合笔者多年的面试官经历,来聊一聊, 如果面试大数据分析师岗位(初、中级),需要掌握哪些基本的技术技能

在日常的工作中,大数据分析师的核心工作内容便是从大量数据中,通过数据处理、统计分析和算法挖掘等技术手段,将数据转换成有效的信息,从而进一步转化为知识并内化为智慧。

因此,涉及的技术会非常广泛,这取决于具体的业务需求和公司技术架构。 本文我们着重介绍大部分公司常用的技术,也是面试中最容易被问到的技术。

下图为互联网公司常见的大数据技术栈:

面试大数据分析师,你需要掌握的基础技术栈

图 1.互联网公司常见大数据技术栈

上图中, 绿色的部分 为面试中经常被问到的基础技术, 黄色部分 为加分项, 蓝色部分 通常不会直接用到,但是也需要有一定的了解。

本文主要围绕 绿色的部分 ,讲解下这些技术的应用场景、解决的问题及面试中需要掌握的基础内容。根据其功能性和应用场景不同,可以进行以下分类。

面试大数据分析师,你需要掌握的基础技术栈

图2.大数据基础技术栈

大数据分析师的日常工作流程大致如下:

1.设计定义要收集的数据,并由数据收集系统完成收集;

2.完成数据的预处理,将数据转化为结构化的数据;

3.根据业务需求,对数据进行离线 SQL 分析或者实时分析得到相应的结果信息;

4.将上述结果信息通过数据可视化 工具 呈现出来,通过对比分析其趋势或差异,推导出相应的结论。

相信聪明的同学已经看出来了,图2中罗列的技术便是从数据分析工作的每个环节中,选择了一个典型代表。笔者结合多年来的面试经历,以及工作中实际使用经验,来一一做下简单介绍。

数据存储

从存储的数据的内容来看,数据存储分为离线文件存储和结构化结果数据存储,其中离线文件存储,主要解决的问题是存储大量的数据,常用的技术是HDFS; 而结构化结果数据存储, 主要目标是方便存取和修改,常用的技术是 MySQL 和Hbase。

HDFS

大数据最基础的组件之一,其核心功能是存储海量的数据,存储方式为文件。 对于初级分析师来说,只需要掌握其运行的基本原理,熟悉常用的命令行指令即可,常见面试题如下:

1.  HDFS正常启动后主要有哪些进程在运行,其作用分别是什么

2.  HA主要由什么进程负责,其工作原理是什么

3.  两个NameNode间如何完成数据同步

4.  客户端上传数据的流程是什么

5.  常用的查看、删除、上传、下载和查看active节点的命令是什么

MySQL

MySQL是最流行也是久经考验的关系型数据库,早在大数据技术崛起之前就已经广泛使用。准确来说,其并不算大数据技术之一。

MySQL在技术栈中的主要作用是存储大数据分析后产出的结果数据,因此熟练掌握MySQL也是必备技能之一。日常的工作应用场景主要是对MySQL进行存取数据操作, 因此需要掌握的主要内容是数据表设计、数据的存取、查询SQL等。

核心面试题如下:

1.  表设计时的注意事项或技巧

2.  索引的类型和作用

3.  常见的SQL优化技巧

4.  主从同步的基本原理流程

5.  常用的SQL函数有哪些

Hbase

MySQL属于单机版应用,不适合存储大量的数据,当需要存储大量数据且要方便存取修改的场景出现时,属于NoSQL阵营的Hbase就需要出来扛大旗了。

Hbase的主要特点是面向列设计的KV存储 ,在日常工作中,对Hbase的使用也主要是表设计和存取操作,核心的面试题如下:

1.   hbase和mysql的主要区别是什么

2.  rowkey的设计原则是什么

3.  举一个之前设计rowkey的实际场景案例

4.  zookeeper在hbase集群中的主要作用是

5.  常用的hbase指令有哪些

数据分析

数据分析一般分为离线分析和实时分析。由于现在多数公司都构建了自己的数据仓库体系,因此多数离线分析都是通过SQL完成的,常用的框架为Hive和SparkSQL,少部分会使用MapReduce和SparkCore通过编写代码实现。 而对于实时数据分析,市面上的框架较多, 其中StructedStreaming相对容易上手些。

关键技能面试题如下:

1.  hive内部表和外部表的区别

2.  hive导入导出数据的几种方式

3.  hive自定义函数(UDF)的开发和部署流程?如何创建永久函数

4.  常用的hive窗口函数,并举出一个实例

5.  sparksql如何连接hive的元数据

6.  spark中宽窄依赖的含义及区别,举几个算子的例子

7.  数据倾斜常见的几种形式及解决方案

8.  如何理解structured streaming的无限增长表

9.  如何理解structured streaming基于事件时间的窗口操作

10.  structured streaming不支持的操作有哪些

消息中间件

消息中间件是系统中各应用程序通信的关键通道,其主要作用为应用间解耦、异步操作、削掉高峰、提供缓冲、实时数据传输等。 Kafka是最常用的大数据消息队列,通常都会使用它实现实时数据流的接入, 其核心面试题如下:

1.  kafka的核心基础概念,consumer、consumerGroup、topic、partition、replication等的含义

2.  kafka高效文件存储设计的特点

3.  kafka消息接收的三种模式是什么

4.  常用kafka命令行指令有哪些

资源管理调度

为了提升分布式集群的资源利用率,通常都会使用资源管理调度框架来对计算资源(如CPU、内存、磁盘、网络等)进行统一管理、分配和调度。 hadoop生态,最常用的框架为YARN。 对于大数据分析师来说,YARN工作在底层,很少会去直接用到它,但是了解其基本原理对理解计算过程、排查问题,很有帮助。其需要了解的面试题如下:

1.  yarn作业两种提交模式的区别

2.  如何查看提交到yarn上的作业的日志

3.  如何杀死一个正在执行的yarn作业

数据可视化

统计分析的结果是由一组数字组成的数据,往往并不直观,因此需要借助可视化工具,将其以图形化的方式呈现出来,这样更容易找出藏在数据间的规律。这类工具有很多,有些公司会基于echarts、highcharts等自主研发可视化工具,也有大厂开放出来的工具,如阿里的datav、百度的sugar,还有一些商用收费软件,如国外的tableau。

数据可视化的技术难度并不大,通常面试时会问一下之前可视化的经验。tableau面向高校学生和老师提供的免费的tableau激活码,学生证书的使用有效期为一年。学生可以申请试用,跟着教程自己尝试做几个可视化报表,面试时绝对是个加分项。

结语:

本文只是初步整理了一些面试技术问题,旨在给未入门或刚入门的同学提供一个学习的方向。

虽然这些问题很容易找到答案,通过刷题和背答案可以很快掌握这些面试题,顺利过关。 但是笔者还是希望大家在打基础的阶段尽量多下功夫,打好基本功,带着这些问题去学习,效果会事半功倍。

当然面试前复习下是无可厚非的,如果大家感兴趣可以在留言区留言,我会考虑针对基础核心技术结合在公司长年的面试经验,再整理一个面试题的解题合集(问题+答案+分析过程)。

还能看点啥?

戳戳戳!!!

1. 互联网从业人必须知道的「用户行为数据收集系统」

2. 新晋“小白”眼中的大数据世界

3. 大数据营销之用户画像

4. 机器学习中的维度灾难

5. 推荐系统的商业价值

面试大数据分析师,你需要掌握的基础技术栈

更多精彩内容

长按扫码可关注

感谢阅读,码字不易,顺手点个“ 好看 ”吧 :point_down:


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

刘强东自述

刘强东自述

刘强东 / 中信出版集团 / 2016-6-1 / 49.00

京东 1998年,京东还只是中关村一个经营光磁生意的小柜台,月营业额仅有几万元,如今则已经成长为中国营收规模超大的互联网企业,2015年全年营收1813亿,总交易额达到4627亿元; 为解决电商“最后一公里”的痛点,创立并自建B2C物流模式; 经常被争议,却始终坚持“不挣快钱”,选择上市不是因为“缺钱”,只为让合作伙伴睡得着觉,为用户和社会创造价值,由此成就让整个华尔街一片京东红......一起来看看 《刘强东自述》 这本书的介绍吧!

HTML 压缩/解压工具
HTML 压缩/解压工具

在线压缩/解压 HTML 代码

随机密码生成器
随机密码生成器

多种字符组合密码

SHA 加密
SHA 加密

SHA 加密工具