内容简介:在Hadoop和Spark集群搭建好了以后,如果我们需要向集群中发送、获取文件,或者是执行MapReduce、Spark作业,通常是搭建一个外围的、集群的客户端,在这个客户端上进行操作。而不是直接在集群的NameNode或者DataNode上进行。此时,集群和客户端的结构如下图所示(简化图,没有考虑NameNode的高可用),本文将介绍如何快速搭建一个集群客户端(有时也叫gateway)。在网络配置方面,可以遵循集群仅开放内网访问,而客户端开放外网访问,所有对集群的访问和管理,均通过客户端来完成。Step
在Hadoop和Spark集群搭建好了以后,如果我们需要向集群中发送、获取文件,或者是执行MapReduce、Spark作业,通常是搭建一个外围的、集群的客户端,在这个客户端上进行操作。而不是直接在集群的NameNode或者DataNode上进行。此时,集群和客户端的结构如下图所示(简化图,没有考虑NameNode的高可用),本文将介绍如何快速搭建一个集群客户端(有时也叫gateway)。
在网络配置方面,可以遵循集群仅开放内网访问,而客户端开放外网访问,所有对集群的访问和管理,均通过客户端来完成。
Step1. 配置hosts
在这篇文章中,客户端的主机名是dc1(DataClient1的缩写,192.168.0.150),Hadoop集群中的NameNode主机名是hadoop01(192.168.0.34)。首先配置hosts让两台机器相互“认识”一下。
修改hadoop01的hosts:
# vim /etc/hosts 192.168.0.150 dc1
修改dc1的hosts:
# vim /etc/hosts 192.168.0.34 hadoop01
当数据中心的服务器很多时,配置hosts可能不够方便,此时可以部署一台DNS(Domain Name Service)服务器,用于解析主机名。
Step2. 配置ssh免密码登录
请参考: linux上配置ssh实现免密登录
Step3. 复制~/.bashrc文件
接下来,还要配置一下$HADOOP_HOME、$JAVA_HOME等环境变量,实际就是拷贝一下~/.bash文件。
# scp -P 60034 ~/.bashrc dc1:~/.bashrc
Step4. 安装 java 和hadoop
安装java和hadoop的操作很简单,只需要将hadoop01上的Hadoop和Java文件夹复制到dc1就可以了。
# scp -P 60034 -r $HADOOP_HOME dc1:$HADOOP_HOME
# scp -P 60034 -r $JAVA_HOME dc1:$JAVA_HOME
此时,可能会疑惑,这样不是就和 安装和配置Hadoop集群(3节点) 一样了,好像又往集群中添加了一台机器一样。这里最大的不同是:不需要运行hadoop进程(DataNode、NameNode、ResourceManager、NodeManager等),即不需要执行start-dfs.sh/start-yarn.sh。同时,也没有修改$HADOOP_CONF_DIR/slaves文件,因此并未加入集群。而只是作为集群的客户端使用。
因为我们上面是将整个$HADOOP_HOME拷贝到了dc1,其中包含了所有的配置文件,因此,也无需配置。
Step5. 验证安装
因为我在Hadoop集群上已经放有一些测试文件,通过命令行界面,对文件进行一下获取和发送,可以验证客户端与集群工作良好。
1.从集群下载文件到客户端
# hdfs dfs -get /user/root/tmp/file1.txt ~/tmp
2.在客户端重命名后上传到集群
# mv ~/tmp/file1.txt ~/tmp/file1_2.txt # hdfs dfs -put ~/tmp/file1_2.txt /user/root/tmp
至此,一个简单的Hadoop集群客户端就搭建好了。除了在客户端上执行HDFS的文件操作以外,还可以运行Hive,Hive本身就是一个客户端的工具。同时,也可以运行Spark的Driver程序,它是Spark集群的客户端。而Spark集群中的Worker通常是和HDFS的DataNode部署在同一台服务器上,以提升数据访问效率。
感谢阅读,希望这篇文章能给你带来帮助!
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:- 查看ceph集群被哪些客户端连接
- 查看ceph集群被哪些客户端连接
- Golang的Redis客户端,支持单机,哨兵,集群
- Redis 5.0 Cluster集群带认证及客户端连接
- FastDFS服务器集群部署和集成客户端到SpringBoot
- Redis 6 RC1 发布:SSL、ACL、RESP3、客户端缓存与集群代理等
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
Scrum精髓
Kenneth Rubin / 姜信宝、米全喜、左洪斌、(审校)徐毅 / 清华大学出版社 / 2014-6-1 / CNY 79.00
短短几年时间,Scrum跃升为敏捷首选方法,在全球各地得以普遍应用。针对如何用好、用巧这个看似简单的框架,本书以通俗易懂的语言、条理清晰的脉络阐述和提炼出Scrum的精髓。全书共4部分23章,阐述了七大核心概念:Scrum框架,敏捷原则,冲刺,需求和用户故事,产品列表,估算与速率,技术债;三大角色:产品负责人,ScrumMaster,开发团队以及Scrum团队构成:Scrum规划原则及四大规划活动......一起来看看 《Scrum精髓》 这本书的介绍吧!