Python技术栈与Spark大数据数据平台整合实战--大数据ML样本集案例实战

栏目: Python · 发布时间: 7年前

内容简介:版权声明:本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。QQ邮箱地址:1120746959@qq.com,如有任何学术交流,可随时联系。通过Python技术栈与Spark大数据数据平台整合,我们将实现python生态最完善的计算和可视化体系。秦凯新 于深圳 201812132319

版权声明:本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。QQ邮箱地址:1120746959@qq.com,如有任何学术交流,可随时联系。

1 Python 技术栈与Spark大数据数据平台整合

  • 下载Anaconda3 Linux 版本

    Anaconda3-5.3.1-Linux-x86_64.sh
    复制代码
  • 安装Anaconda3

    bash Anaconda3-5.3.1-Linux-x86_64.sh -b 
    复制代码
  • 环境变量配置PYSPARK_DRIVER_PYTHON以及PYSPARK_PYTHON配置

    export SCALA_HOME=/usr/local/install/scala-2.11.8
      export JAVA_HOME=/usr/lib/java/jdk1.8.0_45
      export HADOOP_HOME=/usr/local/install/hadoop-2.7.3
      export SPARK_HOME=/usr/local/install/spark-2.3.0-bin-hadoop2.7
      export FLINK_HOME=/usr/local/install/flink-1.6.1
      
      export ANACONDA_PATH=/root/anaconda3
      export PYSPARK_DRIVER_PYTHON=$ANACONDA_PATH/bin/ipython
      export PYSPARK_PYTHON=$ANACONDA_PATH/bin/python
      
      
      export JRE_HOME=${JAVA_HOME}/jre
      export CLASS_PATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
      export PATH=:${JAVA_HOME}/bin:${SCALA_HOME}/bin:${HADOOP_HOME}/bin:${SPARK_HOME}/bin:$PATH
      export PATH=/root/anaconda3/bin:$PATH
    复制代码
  • 启动Saprk

  • 启动jupyter notebook

    老版本
      PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook --allow-root" pyspark
      
      未来版本
      PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS=`jupyter notebook --allow-root` pyspark
    复制代码
    Python技术栈与Spark大数据数据平台整合实战--大数据ML样本集案例实战
  • jupyter远程访问

    vi ~/.jupyter/jupyter_notebook_config.py
      c.NotebookApp.ip = '*' # 允许访问此服务器的 IP,星号表示任意 IP
      c.NotebookApp.open_browser = False # 运行时不打开本机浏览器
      c.NotebookApp.port = 12035 # 使用的端口,随意设置
      c.NotebookApp.enable_mathjax = True # 启用 MathJax
    复制代码
  • jupyter NoteBook开发界面

Python技术栈与Spark大数据数据平台整合实战--大数据ML样本集案例实战
  • spark程序调试
Python技术栈与Spark大数据数据平台整合实战--大数据ML样本集案例实战
lines=sc.textFile("/LICENSE")
    pairs = lines.map(lambda s: (s, 1))
    counts = pairs.reduceByKey(lambda a, b: a + b)
    
    counts.count()
    243
    
    counts.first()
    ('                                 Apache License', 1)
复制代码
  • Standalone模式启动

    PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook --allow-root" MASTER=spark://SparkMaster:7077 pyspark
    复制代码
Python技术栈与Spark大数据数据平台整合实战--大数据ML样本集案例实战
Python技术栈与Spark大数据数据平台整合实战--大数据ML样本集案例实战

2 总结

通过Python技术栈与Spark大数据数据平台整合,我们将实现python生态最完善的计算和可视化体系。

秦凯新 于深圳 201812132319

版权声明:本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。QQ邮箱地址:1120746959@qq.com,如有任何学术交流,可随时联系。


以上所述就是小编给大家介绍的《Python技术栈与Spark大数据数据平台整合实战--大数据ML样本集案例实战》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

The Elements of Statistical Learning

The Elements of Statistical Learning

Trevor Hastie、Robert Tibshirani、Jerome Friedman / Springer / 2009-10-1 / GBP 62.99

During the past decade there has been an explosion in computation and information technology. With it have come vast amounts of data in a variety of fields such as medicine, biology, finance, and mark......一起来看看 《The Elements of Statistical Learning》 这本书的介绍吧!

MD5 加密
MD5 加密

MD5 加密工具

RGB CMYK 转换工具
RGB CMYK 转换工具

RGB CMYK 互转工具