内容简介:Spark踩坑之App闭包Null Pointer问题
昨天踩了 App子类闭包问题 ,刚开始用Spark 2.1的DataSet相关API,误以为是使用的姿势不正确,定位问题的方向不对,浪费了好多时间调试。后来改回成DataFrame API,问题得到了快速定位。因为这个bug在DataSet闭包中,使用broadcast的value不会报错,程序可以顺利执行;而在DataFrame闭包中,调用broadcast的value,会抛出null pointer异常。
看看下面的例子,
object DemoBug extends App {
val conf = new SparkConf()
val sc = new SparkContext(conf)
val rdd = sc.parallelize(List("A","B","C","D"))
val str1 = "A"
val rslt1 = rdd.filter(x => { x != "A" }).count
val rslt2 = rdd.filter(x => { str1 != null && x != "A" }).count
println("DemoBug: rslt1 = " + rslt1 + " rslt2 = " + rslt2)
}
输出内容
DemoBug: rslt1 = 3 rslt2 = 0
根据输出,说明变量 str1 并没有正确的传到 rdd 的闭包filter中。如果将App换成main,可以得到期望的结果。
object DemoBug {
def main(args:Array[String]) = {
val conf = new SparkConf()
val sc = new SparkContext(conf)
val rdd = sc.parallelize(List("A","B","C","D"))
val str1 = "A"
val rslt1 = rdd.filter(x => { x != "A" }).count
val rslt2 = rdd.filter(x => { str1 != null && x != "A" }).count
println("DemoBug: rslt1 = " + rslt1 + " rslt2 = " + rslt2)
}
}
输出内容
DemoBug: rslt1 = 3 rslt2 = 3
根据 spark官方bug 反馈,此问题已经解决了,但是实际来看还是没有解决。所以还是乖乖使用main吧!
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:- go语言闭包问题
- JavaScript循环出现的问题——用闭包来解决
- 草根学Python(十五) 闭包(解决一个需求了解闭包流程)
- [原]谈一谈闭包
- Java闭包如何工作
- 理解 JavaScript 闭包
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
激荡十年,水大鱼大
吴晓波 / 中信出版社 / 2017-11-1 / CNY 58.00
【编辑推荐】 知名财经作者吴晓波新作,畅销十年、销量超过两百万册的《激荡三十年》续篇,至此完成改革开放四十年企业史完整记录。 作为时代记录者,吴晓波有意识地从1978年中国改革开放伊始,记录中国翻天覆地的变化和对我们影响至深的人物与事件,串成一部我们每个人的时代激荡史。而最新的这十年,无疑更壮观,也更扑朔迷离。 很多事情,在当时并未有很深很透的感受,回过头来再看,可能命运的轨迹就......一起来看看 《激荡十年,水大鱼大》 这本书的介绍吧!