Spark集群环境搭建

栏目: 服务器 · 发布时间: 7年前

内容简介:Spark集群环境搭建

一、开发工具

  1. JAVA:JDK(Oracle官网最新版)
  2. Hadoop(Version:2.7.3)
  3. Spark(Version:2.1.1)
  4. VirtualBox
  5. Scala(Vesion:2.1.12)
  6. Ubuntu(Vesion:16.04)

二、 Linux 基本配置

  1. VirtualBox安装Ubuntu

  2. Ubuntu下切换到root

    sudo passwd //设置root的密码
  3. Ubuntu VI编辑器乱码

    先卸载vim-tiny:

    $ sudo apt-get remove vim-common

    再安装vim full:

    $ sudo apt-get install vim
  4. SSH免密码登录

    a.安装ssh client server

    sudo apt-get install openssh-client
     sudo apt-get install openssh-server

    在Master主机上生成

    ssh-keygen -t rsa

    三次回车之后,在当前根目录下会生成:.ssh目录,.ssh下有id_rsa和id_rsa.pub

    b.将生成的id_rsa.pub复制到Slaver机器上的.ssh/authorized_keys文件中,如果没有该目录及文件,手动创建,并使用追加的方式进行:

    cat id_rsa.pub >> .ssh/authorized_keys

    authorized_keys的权限设置:

    chmod 600 .ssh/authorized_keys

三、 Java 安装及环境变量配置

  1. 解压JDK

    在/usr/local目录下新建目录jdk,解压JDK文件

    sudo tar -zxvf jdkXXX.tar.gz -C /usr/local/jdk
  2. 配置环境变量

    编辑/etc/profile文件:

    export JAVA_HOME=/usr/local/jdk/jdk1.8.0_131
     export JRE_HOME=${JAVA_HOME}/jre
     export CLASS_PATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
    
     export PATH=$PATH:${JAVA_HOME}/bin # $PATH必须得有

四、Hadoop安装配置

  1. 解压Hadoop

    sudo tar -zxvf hadoop2.7.3.tar.gz -C /usr/local/hadoop
  2. 修改Hadoop的配置文件(目录:hadoop/hadoop2.7.3/etc/hadoop)

    core-site.xml
    
     hdfs-site.xml
    
     maped-site.xml
     
     yarn-site.xml
     
     hadoop-env.sh
     
     slaves
  3. 格式化并启动HDFS

    格式化:

    bin/hdfs namenode -format

    启动HDFS:

    sbin/start_dfs.sh

    启动失败的可原因:/etc/hosts文件有变动

  4. 使用Browser查看HDFS信息

    使用默认端口连接:http://master:50070/
  5. 启动资源管理框架YARN

    /sbin/start-yarn.sh
  6. 查看Hadoop的UI控制台

    http://master:8088

五、Spark安装配置

  1. 解压Spark

    sudo tar -zxvf spark-2.1.1-hin-hadoop2.7 -C /usr/local/spark
  2. 修改Spark的配置文件(conf目录下)

    spark-env.sh
     
     slaves
  3. 配置系统环境变量

    vim /etc/profile
     使用scp 将/etc/profile文件同步到每台机器上
  4. 拷贝Spark安装目录下的所有文件到其它的机器上

  5. 启动Spark

    启动Spark

    /sbin/start-all.sh

    启动Spark的日志记录服务

    sbin/start-history-server.sh
  6. 查看Spark的UI控制台

    http://master:8080
     http://master:18080 (history-server)
  7. Spark-submit提交Spark运行

    bin目录下:

    spark-submit 
     --class 完整的包名
     --master spark://master:7077
     --executor-memory 20G
     --total-executor-cores 100
     *.jar 运行jar的完整路径
     1000 并行运行的数目
  8. spark-shell运行

    bin目录下:

    spark-shell
     --master spark://Master:7077

以上所述就是小编给大家介绍的《Spark集群环境搭建》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

内容算法

内容算法

闫泽华 / 中信出版社 / 2018-4-30 / 58.00元

近两年来,伴随着BAT纷纷涌入自媒体平台,自媒体发展可谓迎来爆发。自媒体平台火爆起来是从今日头条异军突起而引发的。它是一款基于数据挖掘的推荐引擎产品,为用户推荐有价值的、个性化的信息,是国内移动互联网领域成长最快的产品服务之一。推荐引擎也将迎来高速发展,针对推荐引擎的优化技术也将会迎来新的机遇。 本书作者从事推荐引擎相关的内容分发相关工作,在书中对内容推荐系统进行了介绍,书的最后,介绍了自媒......一起来看看 《内容算法》 这本书的介绍吧!

RGB转16进制工具
RGB转16进制工具

RGB HEX 互转工具

在线进制转换器
在线进制转换器

各进制数互转换器

XML 在线格式化
XML 在线格式化

在线 XML 格式化压缩工具