DataFusion 5.0.0 发布,可扩展的查询执行框架

栏目: 软件资讯 · 发布时间: 3年前

内容简介:DataFusion 是一个可扩展的查询执行框架,用 Rust 编写,使用 Apache Arrow 作为其内存格式。 DataFusion 支持用于构建逻辑查询计划的 SQL 和 DataFrame API,以及能够使用线程对分区数据源(CSV 和 Parquet)并行...

DataFusion 是一个可扩展的查询执行框架,用 Rust 编写,使用 Apache Arrow 作为其内存格式。

DataFusion 支持用于构建逻辑查询计划的 SQL 和 DataFrame API,以及能够使用线程对分区数据源(CSV 和 Parquet)并行执行的查询优化器和执行引擎。DataFusion 还通过 Ballista crate 支持分布式查询执行 。

近日,Apache Arrow 团队正式推出了 DataFusion 5.0.0 版本,该版本汇集了 31 个不同的贡献者共 211 个提交。

该版本的更新亮点包括:

性能

这个版本在性能上有许多改进,下图显示了单个 TPC-H 查询与前一版本相比的相对性能。

该版本还扩展了对更多 TPC-H 查询的支持:q7、q8、q9 和 q13 均在 DataFusion 5.0 中成功运行。

DataFusion 5.0.0 发布,可扩展的查询执行框架

新功能

  • 对 SQL-99 Analytics 的初步支持;
  • 改进了 JOIN 支持:cross join、semi-join、anti join,以及对空处理的修正;
  • 改进的 EXPLAIN 支持;
  • 支持 SELECT DISTINCT;
  • 支持 Json 和 NDJson 格式的输入;
  • 具有关系的查询列;
  • 增加了更多与日期时间相关的函数: nowdate_truncto_timestamp_millisto_timestamp_microsto_timestamp_seconds
  • Streaming Dataframe.collect;
  • 支持表列别名;
  • 仅使用统计数字回答 count(*)、min() 和 max() 查询;
  • 支持按列位置分组;
  • 增加了常量折叠查询优化器;
  • 哈希分区聚合;
  • 增加了 random SQL 函数;
  • 实现了对浮点和字典类型的计数区分;
  • 在 Datafusion 中重新导出 arrow 和 parquet 板块;

更多详情可查看:https://github.com/apache/arrow-datafusion/blob/5.0.0/datafusion/CHANGELOG.md


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

有趣的二进制

有趣的二进制

[ 日] 爱甲健二 / 周自恒 / 人民邮电出版社 / 2015-10 / 39.00元

《有趣的二进制:软件安全与逆向分析》通过逆向工程,揭开人们熟知的软件背后的机器语言的秘密,并教给读者读懂这些二进制代码的方法。理解了这些方法,技术人员就能有效地Debug,防止软件受到恶意攻击和反编译。本书涵盖的技术包括:汇编与反汇编、调试与反调试、缓冲区溢出攻击与底层安全、钩子与注入、Metasploit 等安全工具。 《有趣的二进制:软件安全与逆向分析》适合对计算机原理、底层或计算机安全......一起来看看 《有趣的二进制》 这本书的介绍吧!

在线进制转换器
在线进制转换器

各进制数互转换器

XML 在线格式化
XML 在线格式化

在线 XML 格式化压缩工具

HSV CMYK 转换工具
HSV CMYK 转换工具

HSV CMYK互换工具