Spark踩坑之App闭包Null Pointer问题

栏目: 服务器 · 发布时间: 7年前

内容简介：Spark踩坑之App闭包Null Pointer问题

昨天踩了 App子类闭包问题，刚开始用Spark 2.1的DataSet相关API，误以为是使用的姿势不正确，定位问题的方向不对，浪费了好多时间调试。后来改回成DataFrame API，问题得到了快速定位。因为这个bug在DataSet闭包中，使用broadcast的value不会报错，程序可以顺利执行；而在DataFrame闭包中，调用broadcast的value，会抛出null pointer异常。

看看下面的例子，

object DemoBug extends App {
    val conf = new SparkConf()
    val sc = new SparkContext(conf)

    val rdd = sc.parallelize(List("A","B","C","D"))
    val str1 = "A"

    val rslt1 = rdd.filter(x => { x != "A" }).count
    val rslt2 = rdd.filter(x => { str1 != null && x != "A" }).count

    println("DemoBug: rslt1 = " + rslt1 + " rslt2 = " + rslt2)
}

输出内容

DemoBug: rslt1 = 3 rslt2 = 0

根据输出，说明变量 str1 并没有正确的传到 rdd 的闭包filter中。如果将App换成main，可以得到期望的结果。

object DemoBug {
    def main(args:Array[String]) = {
      val conf = new SparkConf()
      val sc = new SparkContext(conf)

      val rdd = sc.parallelize(List("A","B","C","D"))
      val str1 = "A"

      val rslt1 = rdd.filter(x => { x != "A" }).count
      val rslt2 = rdd.filter(x => { str1 != null && x != "A" }).count

      println("DemoBug: rslt1 = " + rslt1 + " rslt2 = " + rslt2)
    }
}

输出内容

DemoBug: rslt1 = 3 rslt2 = 3

根据 spark官方bug 反馈，此问题已经解决了，但是实际来看还是没有解决。所以还是乖乖使用main吧！

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

众媒时代

腾讯传媒研究 / 中信出版集团股份有限公司 / 2016-3-1 / CNY 52.00

众媒时代，就是一个大众参与的媒体时代。互联网将传统媒体垄断而单一的传播方式彻底颠覆。人人都可以通过互联网成为内容的制造者、传播者。每个人都是媒体，人是种子，媒体变成了土壤。当我们的信息入口被朋友圈霸占，当我们的眼睛只看得到10W+，当我们不可抑制地沉浸在一次次的“技术狂欢”中，当人人都可以举起手机直播突发现场，当未来的头条由机器人说了算……内容正生生不息地以各种可能的形式出现，我们正彻头彻......一起来看看《众媒时代》这本书的介绍吧!

码农工具

Spark踩坑之App闭包Null Pointer问题

众媒时代

MD5 加密

HEX CMYK 转换工具

HEX HSV 转换工具