内容简介:HDFS 采用了主从(Master/Slave)架构,就不可避免的要面对单点失效(SPOF,Single Point of Failure)的问题。Hadoop 2.X 之后,提供了对高可用(HA)的支持,架构如下所示:在高可用 HDFS 集群中,存在多个 NameNode。其中,有且只有一个 NameNode 是 Active 状态,其它 NameNode 是 Standby 状态。只有 Active 状态的 NameNode 提供服务。如果多个 NameNode 同时提供服务,会产生脑裂(Split
架构
HDFS 采用了主从(Master/Slave)架构,就不可避免的要面对单点失效(SPOF,Single Point of Failure)的问题。Hadoop 2.X 之后,提供了对高可用(HA)的支持,架构如下所示:
主备切换
在高可用 HDFS 集群中,存在多个 NameNode。其中,有且只有一个 NameNode 是 Active 状态,其它 NameNode 是 Standby 状态。只有 Active 状态的 NameNode 提供服务。如果多个 NameNode 同时提供服务,会产生脑裂(Split Brain)的情况,从而增加了维护数据一致性的成本。
当 Active NameNode 发生故障,Standby NameNode 会变成 Active NameNode 继续提供服务,实现主备切换。
数据同步
Active NameNode 和 Standby NameNode 数据同步,通过 QJM(Quorum Journal Manager)实现。
为了理解 QJM 数据同步的原理,需要先理解 Hadoop 检查点(Checkpoint)机制。检查点机制用于从故障或重启快速恢复数据。
HDFS 元数据包含两种文件:
- 命名空间镜像 fsimage 文件,包括文件系统目录树、文件/目录信息和文件件的数据块索引,位置在
dfs.namenode.name.dir目录下; - 编辑日志 edits 文件,位置在
dfs.namenode.edits.dir目录下。
旧的 fsimgage 通过重放 edits 编辑日志,生成新的 fsimage 。
集群中的 JournalNode,通常是至少3个节点,作用相当于共享存储。Active NameNode 向 JournalNode 写编辑日志数据,Standby NameNode 从 JournalNode 读编辑日志数据,从而实现了数据同步。
故障检测
在高可用 HDFS 集群中,ZKFC(Zookeeper Failover Controller)用于监控 NameNode,一个 Failover Controller 监控一个 NameNode,当 Active NameNode 不可用时,触发自动故障恢复。
参考
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:- 深入学习Redis高可用架构
- 《统计学习方法》的Python 3.6复现,实测可用
- 学习笔记:微服务-16 nginx+keepalived +zuul 实现高可用及负载均衡
- Spring Cloud之Finchley版学习(二十三)-Spring Cloud Config高可用
- 把机器学习自动化,AutoML 要做出人人可用的人工智能〡IF19
- 构建生产环境可用的高可用kubernetes集群
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
機器,平台,群眾
安德魯‧麥克費(Andrew McAfee)、艾瑞克‧布林優夫森(Erik Brynjolfsson) / 李芳齡 / 天下文化 / 2017-12-27 / TWD550
★★Amazon.com商業理財Top1 ★★ 全球暢銷書《第二次機器時代》作者最新力作 兩位MIT數位頂尖科學家歷時三年時間 走訪矽谷、華府、劍橋、紐約、倫敦、舊金山等科技政經重鎮 拜會許多領域精英進行交流,結合宏觀趨勢觀察, 指出人人都應關注的三重革命 科技正以空前速度改變每個產業及每個人的生活, 你該如何做,才能保持領先? 我們生活在一個奇特的......一起来看看 《機器,平台,群眾》 这本书的介绍吧!