Spark SQL 源码分析(二):SqlParser

栏目: 服务器 · 发布时间: 6年前

内容简介:SQL on Hadoop 按 SQL 解析可分为两大阵营:ANTLR 阵营的包括:Apache Hive、Apache Spark、PrestoApache Calcite 阵营的包括:Apache Flink、Apache Kylin

SQL on Hadoop 按 SQL 解析可分为两大阵营:

ANTLR 阵营的包括:Apache Hive、Apache Spark、Presto

Apache Calcite 阵营的包括:Apache Flink、Apache Kylin

SparkSession

Spark 2.0 之后,提供了 SparkSession 新的程序入口,替代了之前的 SqlContext 和 HiveContext,执行 SQL 和创建 DataFrame/Dataset。

SparkSession.builder()  
  .appName("demo")
  .master("yarn")
  .enableHiveSupport()
  .getOrCreate()

SparkSession 内部的属性:

  • sparkContext 全局唯一的 SparkContext 实例
  • sharedState 会话间共享的状态,包括 sparkContext、缓存的数据、监听器和外部系统交互的 Catalog 等
  • sessionState 会话间独立的状态,包括 SQL 配置、临时表、注册的 UDF 等

下面以 SparkSession 的 sql(sqlText: String): DataFrame 为例,描述 SQL 语句的解析过程:

/**
 * Executes a SQL query using Spark, returning the result as a `DataFrame`.
 * The dialect that is used for SQL parsing can be configured with 'spark.sql.dialect'.
 *
 * @since 2.0.0
 */
def sql(sqlText: String): DataFrame = {  
  Dataset.ofRows(self, sessionState.sqlParser.parsePlan(sqlText))
}

SparkSqlParser

Spark SQL 源码分析(二):SqlParser

在 AbstractSqlParser,实现了 ParserInterface 的 parsePlan 方法:

首先,调用 parse 方法将 SQL 解析为抽象语法树;

然后,回调方法里,从 singleStatement 结点开始,遍历语法树,将结点转换为逻辑计划。

/** Creates LogicalPlan for a given SQL string. */
override def parsePlan(sqlText: String): LogicalPlan = parse(sqlText) { parser =>  
  astBuilder.visitSingleStatement(parser.singleStatement()) match {
    case plan: LogicalPlan => plan
    case _ =>
      val position = Origin(None, None)
      throw new ParseException(Option(sqlText), "Unsupported SQL statement", position, position)
  }
}

在 parse 方法里,使用 ANTLR 4 实现了 SQL 语句的词法分析和语法分析,获得了抽象语法树。

词法分析:

val lexer = new SqlBaseLexer(new UpperCaseCharStream(CharStreams.fromString(command)))  
lexer.removeErrorListeners()  
lexer.addErrorListener(ParseErrorListener)

语法分析:

val tokenStream = new CommonTokenStream(lexer)  
val parser = new SqlBaseParser(tokenStream)  
parser.addParseListener(PostProcessor)  
parser.removeErrorListeners()  
parser.addErrorListener(ParseErrorListener)

回调:

// first, try parsing with potentially faster SLL mode
parser.getInterpreter.setPredictionMode(PredictionMode.SLL)  
toResult(parser)

SparkSqlAstBuilder

Spark SQL 源码分析(二):SqlParser

其中,SqlBaseVisitor 和 SqlBaseBaseVistor 是由 SqlBase.g4 生成的访问者(Visitor)模式解析类。

从 singleStatement 节点开始,遍历整个语法树,生成逻辑计划。查看 SQL 生成的未解析的逻辑计划:

val unresolvedLogicalPlan = spark.sql(sql)  
  .queryExecution
  .logical

基于 Spark 2.3.0 版本


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

全景探秘游戏设计艺术

全景探秘游戏设计艺术

Jesse Schell / 吕阳、蒋韬、唐文 / 电子工业出版社 / 2010-6 / 69.00元

撬开你脑子里的那些困惑,让你重新认识游戏设计的真谛,人人都可以成为成功的游戏设计者!从更多的角度去审视你的游戏,从不完美的想法中跳脱出来,从枯燥的游戏设计理论中发现理论也可以这样好玩。本书主要内容包括:游戏的体验、构成游戏的元素、元素支撑的主题、游戏的改进、游戏机制、游戏中的角色、游戏设计团队、如何开发好的游戏、如何推销游戏、设计者的责任等。 本书适合任何游戏设计平台的游戏设计从业人员或即将......一起来看看 《全景探秘游戏设计艺术》 这本书的介绍吧!

JS 压缩/解压工具
JS 压缩/解压工具

在线压缩/解压 JS 代码

CSS 压缩/解压工具
CSS 压缩/解压工具

在线压缩/解压 CSS 代码

随机密码生成器
随机密码生成器

多种字符组合密码