内容简介:翻译自:https://stackoverflow.com/questions/36311185/jupyter-pyspark-how-to-run-multiple-notebooks
我在三个虚拟机上使用Spark 1.6.0,1x主机(独立),2个工作器,每个8G RAM,2个CPU.
我正在使用下面的内核配置:
{ "display_name": "PySpark ", "language": "python3", "argv": [ "/usr/bin/python3", "-m", "IPython.kernel", "-f", "{connection_file}" ], "env": { "SPARK_HOME": "<mypath>/spark-1.6.0", "PYTHONSTARTUP": "<mypath>/spark-1.6.0/python/pyspark/shell.py", "PYSPARK_SUBMIT_ARGS": "--master spark://<mymaster>:7077 --conf spark.executor.memory=2G pyspark-shell --driver-class-path /opt/vertica/java/lib/vertica-jdbc.jar" } }
目前,这是有效的.我可以使用spark context sc&没有导入的sqlContext,如在pyspark shell中.
当我使用多个笔记本时出现问题:
在我的火花大师身上,我看到两个’pyspark-shell’应用程序,这有点意义,但一次只能运行一个.但在这里,“跑步”并不意味着执行任何操作,即使我没有在笔记本上运行任何东西,它也会显示为“正在运行”.鉴于此,我不能在笔记本之间共享我的资源,这是非常可悲的(我目前必须杀死第一个shell(=笔记本内核)来运行第二个).
如果您对如何操作有任何想法,请告诉我!
另外,我不确定我使用内核的方式是“最佳实践”,我已经遇到了设置spark& amp; jupyter一起工作.
大家好
问题是Spark用来存储Metastore(Derby)的数据库. Derby是一个轻量级数据库系统,一次只能运行一个Spark实例.
解决方案是设置另一个数据库系统来处理多个实例(postgres,mysql ……).
例如,您可以使用postgres DB.
>在火花/罐子中加入 postgres 罐
>在spark conf中添加配置文件(hive-site.xml)
>在您的机器上安装postgres
>在postgres中为spark / hive添加用户,密码和数据库(取决于你在hive-site.xml中的值)
linux shell上的示例:
# download postgres jar wget https://jdbc.postgresql.org/download/postgresql-42.1.4.jar # install postgres on your machine pip install postgres # add user, pass and db to postgres psql -d postgres -c "create user hive" psql -d postgres -c "alter user hive with password 'pass'" psql -d postgres -c "create database hive_metastore" psql -d postgres -c "grant all privileges on database hive_metastore to hive"
蜂房的site.xml:
<configuration> <property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:postgresql://localhost:5432/hive_metastore</value> </property> <property> <name>javax.jdo.option.ConnectionDriverName</name> <value>org.postgresql.Driver</value> </property> <property> <name>javax.jdo.option.ConnectionUserName</name> <value>hive</value> </property> <property> <name>javax.jdo.option.ConnectionPassword</name> <value>pass</value> </property> </configuration>
翻译自:https://stackoverflow.com/questions/36311185/jupyter-pyspark-how-to-run-multiple-notebooks
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:- 运行多个 npm script
- 多个安卓墙纸APP运行恶意广告
- 如何科学的在Docker Container中运行多个服务
- ansible文件内容替换+在远程主机上运行多个command
- UP Core开发板将于8月份出货,可运行多个操作系统
- 如何从PHP脚本(如批处理文件)中运行多个PHP脚本?
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
P3P Web隐私
克劳娜著、技桥译 / 克劳娜 / 清华大学出版社 / 2004-5 / 45.0
自万维网络中出现商业站点以来,基于Web的商业需求和用户的隐私权利之间就存在着不断的斗争。Web开发者们需要收集有关用户的信息,但是他们也需要表示出对用户隐私的尊重。因此隐私偏好工程平台,或者称之为P3P,就作为满足双方利益的技术应运而生了。 P3P由万维网协会研制,它为Web用户提供了对自己公开信息的更多的控制。支持P3P的Web站点可以为浏览者声明他们的隐私策略。支持P3P的浏览......一起来看看 《P3P Web隐私》 这本书的介绍吧!
RGB转16进制工具
RGB HEX 互转工具
随机密码生成器
多种字符组合密码