基于Hadoop生态系统的一高性能数据存储格式CarbonData（性能篇）

栏目: 编程工具 · 发布时间: 5年前

内容简介：CarbonData在数据查询的性能表现比Parquet好很多，在写一次读多次的场景下非常适合使用;社区比较活跃，响应也很及时。目前官网发布版本1.3.0与最新的spark稳定版Spark2.2.1集成，增加了支持标准的Hive分区，支持流数据准实时入库等新特性，相信会有越来越多的项目会使用到。Ø 服务器配置

CarbonData在数据查询的性能表现比Parquet好很多，在写一次读多次的场景下非常适合使用;社区比较活跃，响应也很及时。目前官网发布版本1.3.0与最新的spark稳定版Spark2.2.1集成，增加了支持标准的Hive分区，支持流数据准实时入库等新特性，相信会有越来越多的项目会使用到。

一、评测环境

1)网络拓扑图

2)配置参数

Ø 服务器配置

二、性能对比

目前主流hadoop的文件存储格式有行存储的CSV格式，列式存储的ORC和Parquet等。本章给出的是Parquet+Spark和CarbonData+Spark在过滤查询场景和聚合计算场景的性能测试结果。

1)测试数据

创建沈阳社保的数据仓库，导入、集成1年的测试数据，如下表：

生成CarbonData格式文件，如下表：

2)过滤查询场景测试

Parquet和CarbonData在过滤查询场景下的性能对比

3)聚合计算场景测试

Parquet和CarbonData在聚合计算场景下的性能对比

4)总结分析

在过滤查询中，CarbonData的查询效率比parquet效率好，主要体现在列数据的索引查询，极大地提高了精确查询的性能。在聚合查询中，CarbonData通过使用全局字典编码来加快计算速度，这使得处理、查询引擎可以直接在编码好的数据上进行处理而不需要转换数据，数据只有在返回结果给用户的时候才转换成用户可读的形式，通过索引有效过滤文件数据块减少磁盘的IO，提高查询性能。

三、小结

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

算法：C语言实现

塞奇威克 / 霍红卫 / 机械工业出版社 / 2009-10 / 79.00元

《算法:C语言实现(第1-4部分)基础知识、数据结构、排序及搜索(原书第3版)》细腻讲解计算机算法的C语言实现。全书分为四部分，共16章。包括基本算法分析原理，基本数据结构、抽象数据结构、递归和树等数据结构知识，选择排序、插入排序、冒泡排序、希尔排序、快速排序方法、归并和归并排序方法、优先队列与堆排序方法、基数排序方法以及特殊用途的排序方法，并比较了各种排序方法的性能特征，在进一步讲解符号表、树等......一起来看看《算法：C语言实现》这本书的介绍吧!

码农工具

HTML 压缩/解压工具

在线压缩/解压 HTML 代码

XML 在线格式化

在线 XML 格式化压缩工具