内容简介:温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。提示:代码块部分可以左右滑动查看噢Fayson在之前的文章中介绍过《
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。
Fayson的github:https://github.com/fayson/cdhproject
提示:代码块部分可以左右滑动查看噢
1.文档编写目的
Fayson在之前的文章中介绍过《 CDH网络要求(Lenovo参考架构) 》,《 如何为Hadoop集群选择正确的硬件 》和《CDH安装前置准备》,而我们在搭建Hadoop集群时,还一件很重要的事就是如何给集群分配角色。
本文主要介绍由Cloudera Manager管理的CDH集群的角色划分。实际部署你可能还需要考虑工作负载的类型和数量,真实要部署的哪些服务,硬件资源,配置,以及其他因素。当你使用Cloudera Manager的安装向导来安装CDH时,CM会根据主机的可用资源,自动的分配角色到各台主机,边缘节点除外。你可以在向导中使用"自定义角色分配 - Customize Role Assignments"来更改这些默认划分,当然你也可以以后再使用Cloudera Manager来增加或修改角色分配。
在介绍角色划分时,我们首先来看看有哪几种主要的角色:
1.管理节点(Master Hosts):主要用于运行Hadoop的管理进程,比如HDFS的NameNode,YARN的ResourceManager。
2.工具节点(Utility Hosts):主要用于运行非管理进程的其他进程,比如Cloudera Manager和Hive Metastore。
3.边缘节点(Edge Hosts):用于集群中启动作业的客户端机器,边缘节点的数量取决于工作负载的类型和数量。
4.工作节点(Worker Hosts):主要用于运行DataNode以及其他分布式进程,比如ImpalaD。
本文会从测试/开发集群(小于10台),小规模集群(10-20台),中小规模集群(20-50台),中等规模集群(50-100台),大型集群(100-200台),超大规模集群(200-500台),巨型规模集群(500台以上)来分别讲述角色划分。以下角色划分场景都不包括Kafka,Kafka角色我们一般都会采用单独的机器部署。
2.集群角色划分
2.1.小于10台
一般用于测试/开发集群,我们建议至少5台机器,没有高可用。一个管理节点主要用于安装NameNode和ResourceManager,工具节点和边缘节点复用一个,主要用于安装Cloudera Manager等,剩余3-7台工作节点。
2.2.10-20台
这是最小规模的生产系统,必须启用高可用。我们会用2个管理节点用于安装2个NameNode,一个 工具 节点用于安装Cloudera Manager等,如果机器充足或者Hue/HiveServer2/Flume的负载特别高,可以考虑独立出边缘节点用于部署这些角色,否则也可以跟Cloudera Manager复用。最后还剩下7-17个工作节点。
注:根据实际情况选择是否需要单独的边缘节点。
OpenLDAP 主备参考《 3.如何实现OpenLDAP的主主同步 》
Kerberos 主备参考《 如何配置Kerberos服务的高可用 》
2.3.20-50台
这是中小规模的生产集群,必须启用高可用,与小规模集群角色划分差别不大。我们会用 3 个管理节点用于安装 NameNode 和 Zookeeper 等,一个工具节点用于安装 ClouderaManager 等,如果机器充足或者 Hue/HiveServer2/Flume 的负载特别高,可以考虑独立出边缘节点用于部署这些角色,否则也可以跟 Cloudera Manager 复用。最后还剩下 16-46 个工作节点。
注:根据实际情况选择是否需要单独的边缘节点。
Zookeeper 和 JournalNode 需配置专有的数据盘
OpenLDAP 主备参考《 3.如何实现OpenLDAP的主主同步 》
Kerberos 主备参考《 如何配置Kerberos服务的高可用 》
2.4.50-100台
这是中等规模的生产集群,必须启用高可用。我们会用 3 个管理节点用于安装 NameNode 和 Zookeeper 等,一个工具节点用于安装 Cloudera Manager ,一个工具节点用于安装 ClouderaManagement Service 和 Navigator 等。使用三个节点安装 Hue/HiveServer2/Flume ,作为边缘节点,使用两个节点安装负载均衡软件比如 F5 或者 HAProxy 并配置为 KeepAlive 的主主模式,该负载均衡可同时用于 HiveServer2 和 Impala Daemon 。最后还剩下 42-92 个工作节点。
注: Zookeeper 和 JournalNode 需配置专有的数据盘
OpenLDAP 主备参考《 3.如何实现OpenLDAP的主主同步 》
Kerberos 主备参考《 如何配置Kerberos服务的高可用 》
2.5.100-200台
属于大规模的生产集群,必须启用高可用。我们会用 5 个管理节点用于安装 NameNode 和 Zookeeper 等, 1 个工具节点用于安装 Cloudera Manager ,再使用 4 个工具节点分别安装 HMS , Activity Monitor , Navigator 等。使用 3 个以上节点安装 Hue/HiveServer2/Flume ,作为边缘节点,使用 2 个节点安装负载均衡软件比如 F5 或者 HAProxy 并配置为 KeepAlive 的主主模式,该负载均衡可同时用于 HiveServer2 和 Impala Daemon 。最后还剩下 85-185 个工作节点。
注: Zookeeper 和 JournalNode 需配置专有的数据盘
Kudu Master 不超过 3 个
Kudu Tablet Server 不超过 100 个
OpenLDAP 主备参考《 3.如何实现OpenLDAP的主主同步 》
Kerberos 主备参考《 如何配置Kerberos服务的高可用 》
2.6.200-500台
属于超大规模的生产集群,必须启用高可用。我们会用 7 个管理节点用于安装 NameNode 和 Zookeeper 等, 1 个工具节点用于安装 Cloudera Manager ,再使用 7 个工具节点分别安装 HMS , Activity Monitor , Navigator 等。使用 3 个以上节点安装 Hue/HiveServer2/Flume ,作为边缘节点,使用 2 个节点安装负载均衡软件比如 F5 或者 HAProxy 并配置为 KeepAlive 的主主模式,该负载均衡可同时用于 HiveServer2 和 Impala Daemon 。最后还剩下 180-480 个工作节点。
注: Zookeeper 和 JournalNode 需配置专有的数据盘
Kudu Master 不超过 3 个
Kudu Tablet Server 不超过 100 个
OpenLDAP 主备参考《 3.如何实现OpenLDAP的主主同步 》
Kerberos 主备参考《 如何配置Kerberos服务的高可用 》
2.7.500台以上
属于巨型规模的生产集群,必须启用高可用。我们会用 20 个管理节点用于安装 NameNode 和 Zookeeper 等, 1 个工具节点用于安装 Cloudera Manager ,再使用 7 个工具节点分别安装 HMS , Activity Monitor , Navigator 等。使用 3 个以上节点安装 Hue/HiveServer2/Flume ,作为边缘节点,使用 2 个节点安装负载均衡软件比如 F5 或者 HAProxy 并配置为 KeepAlive 的主主模式,该负载均衡可同时用于 HiveServer2 和 Impala Daemon 。最后还剩下至少 467 个工作节点。
注:这个规模的规划仅供参考,这种巨型规模的生产集群的角色划分依赖因素非常多,比如是否考虑 NN 和 RM 的联邦等
Zookeeper 和 JournalNode 需配置专有的数据盘
Kudu Master 不超过 3 个
Kudu Tablet Server 不超过 100 个
OpenLDAP 主备参考《 3.如何实现OpenLDAP的主主同步 》
Kerberos 主备参考《 如何配置Kerberos服务的高可用 》
如果你玩的Hadoop集群节点数不在本文范围内,那你肯定不是在玩大数据,或者超过了Fayson的能力范围。
参考:
https://www.cloudera.com/documentation/enterprise/latest/topics/cm_ig_host_allocations.html
提示:代码块部分可以左右滑动查看噢
为天地立心,为生民立命,为往圣继绝学,为万世开太平。
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。
推荐关注Hadoop实操,第一时间,分享更多Hadoop干货,欢迎转发和分享。
原创文章,欢迎转载,转载请注明:转载自微信公众号Hadoop实操
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:- 如何划分限界上下文
- 整数划分--思考问题背后的数学原理
- 【LeetCode】贪心算法--划分字母区间(763)
- JVM笔记-运行时内存区域划分
- Python列表推导式一则:等价类划分
- 简单解决大型 Flask 蓝图的路由划分
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
产品经理必懂的技术那点事儿:成为全栈产品经理
唐韧 / 电子工业出版社 / 2018-1 / 59
《产品经理必懂的技术那点事儿:成为全栈产品经理》以非技术背景产品经理学习技术为主题,将技术知识以简单并且易于理解的方式讲述出来,帮助非技术背景产品经理了解技术、学习技术,旨在帮助产品经理高效地与技术人员进行沟通与合作,避免不懂技术带来的困扰。 《产品经理必懂的技术那点事儿:成为全栈产品经理》主要内容围绕产品经理需要了解的互联网基础技术知识展开,涉及客户端、服务器端、数据库及一些数据处理知识。......一起来看看 《产品经理必懂的技术那点事儿:成为全栈产品经理》 这本书的介绍吧!