内容简介:除了 Apache Spark 本身提供的此外,Apache Livy 支持同时维护多个会话。可以通过 REST 接口、Java/Scala 库和 Apache Zeppelin 访问 Apache Livy。
除了 Apache Spark 本身提供的 spark-submit 、 spark-shell 和 ThriftServer 之外, Apache Livy 提供了另一种与 Spark 集群交互的方式,通过 REST 接口。
此外,Apache Livy 支持同时维护多个会话。
可以通过 REST 接口、Java/Scala 库和 Apache Zeppelin 访问 Apache Livy。
部署
下载
进入 下载页面 下载最新版本的 Apache Livy 分发包,当前最新版本为 0.5.0。下载成功,执行 unzip
解压缩。
配置
进入 conf 目录,执行 cp livy-env.sh.template livy-env.sh
,编辑 livy-env.sh 文件配置环境变量:
export HADOOP_CONF_DIR=/etc/hadoop/conf export SPARK_HOME=/var/lib/spark_2.1.3
其它可选的环境变量有:
- SPARK_CONF_DIR Spark 环境变量目录,默认为
${SPARK_HOME}/conf
; - LIVY_PID_DIR Livy pid 文件存储目录,默认为
/tmp
;
执行 cp livy.conf.template livy.conf
,编辑 livy.conf 文件配置 Livy:
livy.spark.master = yarn livy.spark.deploy-mode = cluster livy.repl.enable-hive-context = true
其它可选的配置有:
- livy.server.host 主机地址,默认为 0.0.0.0;
- livy.server.port 端口号,默认为 8998;
- livy.server.session.timeout-check 是否检测会话超时,默认为 true;
- livy.server.session.timeout 会话超时时间,默认为 1h;
- livy.server.session.state-retain.sec 已完成会话保留时间,默认为 600s;
- livy.rsc.jars RSC JAR 包位置,缓存在 HDFS 上,可以加速会话的启动速度;
- livy.repl.jars REPL JAR 包位置,缓存在 HDFS 上,可以加速会话的启动速度;
- livy.server.yarn.poll-interval YARN 状态刷新频率,默认为 5s;
- livy.ui.enabled 是否启动 UI 界面,默认为 true;
服务启停
启动服务:
bin/livy-server start
停止服务:
bin/livy-server stop
Trouble Shooting
启动会话报错 livy java.lang.NoSuchMethodException: org.apache.spark.ui.SparkUI.appUIAddress()
Apache Livy 0.5.0 + Apache Spark 2.2.0
产生这个问题的原因是 Apache Spark 版本过高,该方法已经作废,降级到 Apache Spark 2.1.3 及之前的版本即可。
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:- 学习笔记:初识httpd
- golang学习笔记1:初识
- 大数据学习 | 初识 Hadoop
- 初识机器学习语言新宠 Julia
- 初识机器学习语言新宠 Julia
- 学习 StreamSets(一):初识 StreamSets
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。