内容简介:版权声明:本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。QQ邮箱地址:1120746959@qq.com,如有任何学术交流,可随时联系。通过Python技术栈与Spark大数据数据平台整合,我们将实现python生态最完善的计算和可视化体系。秦凯新 于深圳 201812132319
版权声明:本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。QQ邮箱地址:1120746959@qq.com,如有任何学术交流,可随时联系。
1 Python 技术栈与Spark大数据数据平台整合
-
下载Anaconda3 Linux 版本
Anaconda3-5.3.1-Linux-x86_64.sh 复制代码
-
安装Anaconda3
bash Anaconda3-5.3.1-Linux-x86_64.sh -b 复制代码
-
环境变量配置PYSPARK_DRIVER_PYTHON以及PYSPARK_PYTHON配置
export SCALA_HOME=/usr/local/install/scala-2.11.8 export JAVA_HOME=/usr/lib/java/jdk1.8.0_45 export HADOOP_HOME=/usr/local/install/hadoop-2.7.3 export SPARK_HOME=/usr/local/install/spark-2.3.0-bin-hadoop2.7 export FLINK_HOME=/usr/local/install/flink-1.6.1 export ANACONDA_PATH=/root/anaconda3 export PYSPARK_DRIVER_PYTHON=$ANACONDA_PATH/bin/ipython export PYSPARK_PYTHON=$ANACONDA_PATH/bin/python export JRE_HOME=${JAVA_HOME}/jre export CLASS_PATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib export PATH=:${JAVA_HOME}/bin:${SCALA_HOME}/bin:${HADOOP_HOME}/bin:${SPARK_HOME}/bin:$PATH export PATH=/root/anaconda3/bin:$PATH 复制代码
-
启动Saprk
-
启动jupyter notebook
老版本 PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook --allow-root" pyspark 未来版本 PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS=`jupyter notebook --allow-root` pyspark 复制代码
-
jupyter远程访问
vi ~/.jupyter/jupyter_notebook_config.py c.NotebookApp.ip = '*' # 允许访问此服务器的 IP,星号表示任意 IP c.NotebookApp.open_browser = False # 运行时不打开本机浏览器 c.NotebookApp.port = 12035 # 使用的端口,随意设置 c.NotebookApp.enable_mathjax = True # 启用 MathJax 复制代码
-
jupyter NoteBook开发界面
- spark程序调试
lines=sc.textFile("/LICENSE") pairs = lines.map(lambda s: (s, 1)) counts = pairs.reduceByKey(lambda a, b: a + b) counts.count() 243 counts.first() (' Apache License', 1) 复制代码
-
Standalone模式启动
PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook --allow-root" MASTER=spark://SparkMaster:7077 pyspark 复制代码
2 总结
通过Python技术栈与Spark大数据数据平台整合,我们将实现python生态最完善的计算和可视化体系。
秦凯新 于深圳 201812132319
版权声明:本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。QQ邮箱地址:1120746959@qq.com,如有任何学术交流,可随时联系。
以上所述就是小编给大家介绍的《Python技术栈与Spark大数据数据平台整合实战--大数据ML样本集案例实战》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!
猜你喜欢:- 基于MNIST数据集实现2层神经网络案例实战-大数据ML样本集案例实战
- Python技术栈与Spark交叉数据分析双向整合技术实战--大数据ML样本集案例实战
- 实战 | 数据湖中的流式数据摄取之DeltaSteamer
- 谈谈Python实战数据可视化之matplotlib模块(实战篇)
- 网约车数据产品实战一:设计数据体系
- 美团 R 语言数据运营实战
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。