HDFS架构简述

栏目: 服务器 · 发布时间: 7年前

内容简介：HDFS（Hadoop distributed File System）：Hadoop分布式文件系统。是基于流数据模式访问和处理超大文件的需要而开发的，可以运行于廉价的服务器上。它所具有的高容错，高可靠性，高可扩展性，高获得性，高吞吐率等特征为海量数据提供了不怕故障的存储，为超大数据集的应用带来了很多便利。简单来说就是把一个超大号文件按一定大小分割并放置在多台服务器上，这样多台服务器同时工作，效率超高，而且安全性也会提高。HDFS主要由四个部分组成，分别为Client，nameNode、DataNode、以

HDFS架构简述

一、HDFS简介

HDFS（Hadoop distributed File System）：Hadoop分布式文件系统。是基于流数据模式访问和处理超大文件的需要而开发的，可以运行于廉价的服务器上。它所具有的高容错，高可靠性，高可扩展性，高获得性，高吞吐率等特征为海量数据提供了不怕故障的存储，为超大数据集的应用带来了很多便利。简单来说就是把一个超大号文件按一定大小分割并放置在多台服务器上，这样多台服务器同时工作，效率超高，而且安全性也会提高。

二、HDFS组成结构以及各部分作用

HDFS主要由四个部分组成，分别为Client，nameNode、DataNode、以及Secondary NameNode组成。

2.1Client（客户端）

* 文件切分：文件上传HDFS的时候，client根据需求将文件切分成一个一个的小数据块（block），然后进行存储。

* 每个小数据块（block）在其他服务器上都有副本，client会与namenode进行通信，获取文件及其副本位置，为以后做打算。

* 与DataNode进行通信，读取或写入数据。

* client可以管理HDFS，比如启动或关闭。

2.2nameNode（管理者）

nameNode在HDFS是管理者的作用，类似于现实世界中的国王地位，客户端和secondary nameNode都是与他进行通信，然后由他发号施令来操作DataNode。主要作用有：

* 管理HDFS的名称空间

* 管理数据块（block）映射信息

* 配置副本策略

* 处理客户端请求

2.3DataNode（执行者）

DataNode在文档中的角色是slave，翻译过来就是奴隶的意思（所以大家知道他的地位了吧），主要就是存储数据块和读写数据块用的：

* 存储实际的数据块（block）

* 执行数据块的读写操作

2.4secondary nameNode

他是nameNode的死忠，帮助nameNode完成一些工作，并且在nameNode要挂的时候给他续命，主要作用如下：

* 定期合并nameNode中的fsimage（映像文件）和fsedits（日志）,并推送给nameNode，避免nameNode中的fsedits过大。

* 在紧急情况下，可辅助恢复nameNode。

三、副本放置策略

第一个副本：放置在上传文件的DN；如果是集群外提交，则随机挑选一台磁盘不太满，CPU不太忙的节点。

第二个副本：放置在于第一个副本不同的机架的节点上。

第三个副本：与第二个副本相同机架的节点。更多副本：随机节点

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

我的第一本算法书

[日]石田保辉、[日]宮崎修一 / 张贝 / 人民邮电出版社 / 2018-10 / 69.00元

本书采用大量图片，通过详细的分步讲解，以直观、易懂的方式展现了7个数据结构和26个基础算法的基本原理。第1章介绍了链表、数组、栈等7个数据结构；从第2章到第7章，分别介绍了和排序、查找、图论、安全、聚类等相关的26个基础算法，内容涉及冒泡排序、二分查找、广度优先搜索、哈希函数、迪菲 - 赫尔曼密钥交换、k-means 算法等。本书没有枯燥的理论和复杂的公式，而是通过大量的步骤图帮助读者加深......一起来看看《我的第一本算法书》这本书的介绍吧!

码农工具