优步Uber向Apache软件基金会提交了一个开源大数据库Hudi

栏目: 软件资讯 · 发布时间: 5年前

内容简介:Hudi目前管理着超过4,000个表,在Uber存储了数PB的数据,同时将Apache Hadoop仓库访问延迟从几小时降低到30分钟以下。Hudi还以比公司以前使用的解决方案更低的成本和更高的效率为数百个增量数据流水线提供支持。Hudi已经发展成为一个通用的大数据存储系统,可以:快速管理和访问数PB数据的能力对于整个数据生态系统的可扩展增长至关重要。尽管如此,这种对规模和速度的综合需求

Hudi目前管理着超过4,000个表,在Uber存储了数PB的数据,同时将Apache Hadoop仓库访问延迟从几小时降低到30分钟以下。Hudi还以比公司以前使用的解决方案更低的成本和更高的效率为数百个增量数据流水线提供支持。

Hudi已经发展成为一个通用的大数据存储系统,可以:

  • 摄取和查询引擎之间的快照隔离,包括Apache Hive,Presto和Apache Spark
  • 支持回滚和保存点以恢复数据集
  • 自动管理文件大小和布局,以优化查询性能和目录列表
  • 近实时提取以使用新数据提供查询
  • 实时和柱状数据的异步压缩

快速管理和访问数PB数据的能力对于整个数据生态系统的可扩展增长至关重要。尽管如此,这种对规模和速度的综合需求 并不总是自然地适合 现有的批处理和流式系统架构。

Hudi于2016年以代号“Hoodie”开发,旨在解决摄取和ETL管道中的低效问题,这些管道需要Uber 大数据生态系统中的 upsert和增量消费原语。为了与更广泛的大数据社区分享这些好处,优步于2017年开放Hudi。

展望未来, 该项目将与The Apache Software Foundation共存 。请查看 Apache Hudi项目页面, 了解技术文档和社区参与指南。


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

创新者的窘境(全新修订版)

创新者的窘境(全新修订版)

克莱顿•克里斯坦森 / 胡建桥 / 中信出版社 / 2014-1-1 / 48.00元

全球商业领域中,许多企业曾叱咤风云,但面对市场变化及新技术的挑战,最终惨遭淘汰。究其原因,竟然是因为它们精于管理,信奉客户至上等传统商业观念。这就是所有企业如今都正面临的“创新者的窘境”。 在《创新者的窘境》中,管理大师克里斯坦森指出,一些看似很完美的商业动作——对主流客户所需、赢利能力最强的产品进行精准投资和技术研发——最终却很可能毁掉一家优秀的企业。他分析了计算机、汽车、钢铁等多个行业的......一起来看看 《创新者的窘境(全新修订版)》 这本书的介绍吧!

JS 压缩/解压工具
JS 压缩/解压工具

在线压缩/解压 JS 代码

XML 在线格式化
XML 在线格式化

在线 XML 格式化压缩工具

RGB HSV 转换
RGB HSV 转换

RGB HSV 互转工具