优步Uber向Apache软件基金会提交了一个开源大数据库Hudi

栏目: 软件资讯 · 发布时间: 6年前

内容简介:Hudi目前管理着超过4,000个表,在Uber存储了数PB的数据,同时将Apache Hadoop仓库访问延迟从几小时降低到30分钟以下。Hudi还以比公司以前使用的解决方案更低的成本和更高的效率为数百个增量数据流水线提供支持。Hudi已经发展成为一个通用的大数据存储系统,可以:快速管理和访问数PB数据的能力对于整个数据生态系统的可扩展增长至关重要。尽管如此,这种对规模和速度的综合需求

Hudi目前管理着超过4,000个表,在Uber存储了数PB的数据,同时将Apache Hadoop仓库访问延迟从几小时降低到30分钟以下。Hudi还以比公司以前使用的解决方案更低的成本和更高的效率为数百个增量数据流水线提供支持。

Hudi已经发展成为一个通用的大数据存储系统,可以:

  • 摄取和查询引擎之间的快照隔离,包括Apache Hive,Presto和Apache Spark
  • 支持回滚和保存点以恢复数据集
  • 自动管理文件大小和布局,以优化查询性能和目录列表
  • 近实时提取以使用新数据提供查询
  • 实时和柱状数据的异步压缩

快速管理和访问数PB数据的能力对于整个数据生态系统的可扩展增长至关重要。尽管如此,这种对规模和速度的综合需求 并不总是自然地适合 现有的批处理和流式系统架构。

Hudi于2016年以代号“Hoodie”开发,旨在解决摄取和ETL管道中的低效问题,这些管道需要Uber 大数据生态系统中的 upsert和增量消费原语。为了与更广泛的大数据社区分享这些好处,优步于2017年开放Hudi。

展望未来, 该项目将与The Apache Software Foundation共存 。请查看 Apache Hudi项目页面, 了解技术文档和社区参与指南。


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

程序员的英语

程序员的英语

[韩]朴栽浒、[韩]李海永 / 颜廷连 / 人民邮电出版社 / 2018-2 / 49.00元

高考以后就把英语都还给老师了? 写代码特顺溜,一到英语就卡壳? 常见的语法书太枯燥,单词书又太宽泛? 不用急,快来加入针对开发人员的英语读解能力训练项目! - 安全与黑客攻击、无人机与机器人、大数据、物联网、云计算,顺应新技术潮流! - 语法、单词、完形填空、阅读理解、翻译,多角度提升读解能力! - 英语母语技术人员审校,提供“语言和技术”双保险!一起来看看 《程序员的英语》 这本书的介绍吧!

MD5 加密
MD5 加密

MD5 加密工具

正则表达式在线测试
正则表达式在线测试

正则表达式在线测试