Spark集群环境搭建

栏目: 服务器 · 发布时间: 7年前

内容简介：Spark集群环境搭建

一、开发工具

JAVA：JDK(Oracle官网最新版)
Hadoop(Version:2.7.3)
Spark(Version:2.1.1)
VirtualBox
Scala(Vesion:2.1.12)
Ubuntu(Vesion:16.04)

二、 Linux 基本配置

VirtualBox安装Ubuntu
Ubuntu下切换到root
```
sudo passwd //设置root的密码
```
Ubuntu VI编辑器乱码

先卸载vim-tiny：
```
$ sudo apt-get remove vim-common
```
再安装vim full：
```
$ sudo apt-get install vim
```
SSH免密码登录

a.安装ssh client server
```
sudo apt-get install openssh-client
 sudo apt-get install openssh-server
```
在Master主机上生成
```
ssh-keygen -t rsa
```
三次回车之后，在当前根目录下会生成：.ssh目录，.ssh下有id_rsa和id_rsa.pub

b.将生成的id_rsa.pub复制到Slaver机器上的.ssh/authorized_keys文件中，如果没有该目录及文件，手动创建，并使用追加的方式进行：
```
cat id_rsa.pub >> .ssh/authorized_keys
```
authorized_keys的权限设置：
```
chmod 600 .ssh/authorized_keys
```

三、 Java 安装及环境变量配置

解压JDK

在/usr/local目录下新建目录jdk,解压JDK文件
```
sudo tar -zxvf jdkXXX.tar.gz -C /usr/local/jdk
```

配置环境变量

编辑/etc/profile文件：

export JAVA_HOME=/usr/local/jdk/jdk1.8.0_131
 export JRE_HOME=${JAVA_HOME}/jre
 export CLASS_PATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib

 export PATH=$PATH:${JAVA_HOME}/bin # $PATH必须得有

四、Hadoop安装配置

解压Hadoop

sudo tar -zxvf hadoop2.7.3.tar.gz -C /usr/local/hadoop

修改Hadoop的配置文件(目录:hadoop/hadoop2.7.3/etc/hadoop)

core-site.xml

 hdfs-site.xml

 maped-site.xml
 
 yarn-site.xml
 
 hadoop-env.sh
 
 slaves

格式化并启动HDFS

格式化:
```
bin/hdfs namenode -format
```
启动HDFS:
```
sbin/start_dfs.sh
```
启动失败的可原因：/etc/hosts文件有变动

使用Browser查看HDFS信息

使用默认端口连接：http://master:50070/

启动资源管理框架YARN
```
/sbin/start-yarn.sh
```
查看Hadoop的UI控制台
```
http://master:8088
```

五、Spark安装配置

解压Spark

sudo tar -zxvf spark-2.1.1-hin-hadoop2.7 -C /usr/local/spark

修改Spark的配置文件(conf目录下)
```
spark-env.sh
 
 slaves
```

配置系统环境变量

vim /etc/profile
 使用scp 将/etc/profile文件同步到每台机器上

拷贝Spark安装目录下的所有文件到其它的机器上
启动Spark

启动Spark
```
/sbin/start-all.sh
```
启动Spark的日志记录服务
```
sbin/start-history-server.sh
```

查看Spark的UI控制台

http://master:8080
 http://master:18080 (history-server)

Spark-submit提交Spark运行

bin目录下:

spark-submit 
 --class 完整的包名
 --master spark://master:7077
 --executor-memory 20G
 --total-executor-cores 100
 *.jar 运行jar的完整路径
 1000 并行运行的数目

spark-shell运行

bin目录下:

spark-shell
 --master spark://Master:7077

以上所述就是小编给大家介绍的《Spark集群环境搭建》，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对码农网的支持！

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

创新者的窘境(全新修订版)

克莱顿•克里斯坦森 / 胡建桥 / 中信出版社 / 2014-1-1 / 48.00元

全球商业领域中，许多企业曾叱咤风云，但面对市场变化及新技术的挑战，最终惨遭淘汰。究其原因，竟然是因为它们精于管理，信奉客户至上等传统商业观念。这就是所有企业如今都正面临的“创新者的窘境”。在《创新者的窘境》中，管理大师克里斯坦森指出，一些看似很完美的商业动作——对主流客户所需、赢利能力最强的产品进行精准投资和技术研发——最终却很可能毁掉一家优秀的企业。他分析了计算机、汽车、钢铁等多个行业的......一起来看看《创新者的窘境(全新修订版)》这本书的介绍吧!

码农工具