Spark踩坑之App闭包Null Pointer问题

栏目: 服务器 · 发布时间: 8年前

内容简介:Spark踩坑之App闭包Null Pointer问题

昨天踩了 App子类闭包问题 ,刚开始用Spark 2.1的DataSet相关API,误以为是使用的姿势不正确,定位问题的方向不对,浪费了好多时间调试。后来改回成DataFrame API,问题得到了快速定位。因为这个bug在DataSet闭包中,使用broadcast的value不会报错,程序可以顺利执行;而在DataFrame闭包中,调用broadcast的value,会抛出null pointer异常。

看看下面的例子,

object DemoBug extends App {
    val conf = new SparkConf()
    val sc = new SparkContext(conf)

    val rdd = sc.parallelize(List("A","B","C","D"))
    val str1 = "A"

    val rslt1 = rdd.filter(x => { x != "A" }).count
    val rslt2 = rdd.filter(x => { str1 != null && x != "A" }).count

    println("DemoBug: rslt1 = " + rslt1 + " rslt2 = " + rslt2)
}

输出内容

DemoBug: rslt1 = 3 rslt2 = 0

根据输出,说明变量 str1 并没有正确的传到 rdd 的闭包filter中。如果将App换成main,可以得到期望的结果。

object DemoBug {
    def main(args:Array[String]) = {
      val conf = new SparkConf()
      val sc = new SparkContext(conf)

      val rdd = sc.parallelize(List("A","B","C","D"))
      val str1 = "A"

      val rslt1 = rdd.filter(x => { x != "A" }).count
      val rslt2 = rdd.filter(x => { str1 != null && x != "A" }).count

      println("DemoBug: rslt1 = " + rslt1 + " rslt2 = " + rslt2)
    }
}

输出内容

DemoBug: rslt1 = 3 rslt2 = 3

根据 spark官方bug 反馈,此问题已经解决了,但是实际来看还是没有解决。所以还是乖乖使用main吧!


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

迷茫的旅行商

迷茫的旅行商

[美] William J. Cook / 隋春宁 / 人民邮电出版社 / 2013-10-1 / 49.00

假设一名旅行商打算拜访一张城市列表中的所有城市,每座城市只去一次,最后回到出发地。要怎么走才能让路线最短呢?这就是旅行商问题,乍一听很简单,在应用数学界却是一道研究极其热烈的难题,时至今日仍无人能解。本书中,William J. Cook将带领读者踏上一场数学之旅,跟随旅行商的脚步,从19世纪初爱尔兰数学家W. R. Hamilton最初定义该问题开始,一路奔向当今最前沿、最顶尖的解题尝试。 ......一起来看看 《迷茫的旅行商》 这本书的介绍吧!

CSS 压缩/解压工具
CSS 压缩/解压工具

在线压缩/解压 CSS 代码

RGB转16进制工具
RGB转16进制工具

RGB HEX 互转工具