优步Uber向Apache软件基金会提交了一个开源大数据库Hudi

栏目: 软件资讯 · 发布时间: 6年前

内容简介:Hudi目前管理着超过4,000个表,在Uber存储了数PB的数据,同时将Apache Hadoop仓库访问延迟从几小时降低到30分钟以下。Hudi还以比公司以前使用的解决方案更低的成本和更高的效率为数百个增量数据流水线提供支持。Hudi已经发展成为一个通用的大数据存储系统,可以:快速管理和访问数PB数据的能力对于整个数据生态系统的可扩展增长至关重要。尽管如此,这种对规模和速度的综合需求

Hudi目前管理着超过4,000个表,在Uber存储了数PB的数据,同时将Apache Hadoop仓库访问延迟从几小时降低到30分钟以下。Hudi还以比公司以前使用的解决方案更低的成本和更高的效率为数百个增量数据流水线提供支持。

Hudi已经发展成为一个通用的大数据存储系统,可以:

  • 摄取和查询引擎之间的快照隔离,包括Apache Hive,Presto和Apache Spark
  • 支持回滚和保存点以恢复数据集
  • 自动管理文件大小和布局,以优化查询性能和目录列表
  • 近实时提取以使用新数据提供查询
  • 实时和柱状数据的异步压缩

快速管理和访问数PB数据的能力对于整个数据生态系统的可扩展增长至关重要。尽管如此,这种对规模和速度的综合需求 并不总是自然地适合 现有的批处理和流式系统架构。

Hudi于2016年以代号“Hoodie”开发,旨在解决摄取和ETL管道中的低效问题,这些管道需要Uber 大数据生态系统中的 upsert和增量消费原语。为了与更广泛的大数据社区分享这些好处,优步于2017年开放Hudi。

展望未来, 该项目将与The Apache Software Foundation共存 。请查看 Apache Hudi项目页面, 了解技术文档和社区参与指南。


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

Ruby on Rails敏捷开发最佳实践

Ruby on Rails敏捷开发最佳实践

李刚 / 电子工业出版社 / 2008-4 / 79.80元

《Ruby on Rails敏捷开发最佳实践》适用于正在使用Ruby On Rails进行应用开发的开发人员、渴望了解Ruby On Rails框架的开发人员,尤其适合有初步的Java EE开发经验,想从Java EE平台过渡到Ruby On Rails开发平台的开发者。 Ruby On Rails框架一经推出,立即引起B/S结构应用开发领域革命性的变化:开发者无需理会架构,只需要按Rail......一起来看看 《Ruby on Rails敏捷开发最佳实践》 这本书的介绍吧!

JSON 在线解析
JSON 在线解析

在线 JSON 格式化工具

URL 编码/解码
URL 编码/解码

URL 编码/解码

HEX HSV 转换工具
HEX HSV 转换工具

HEX HSV 互换工具