Databricks打造“Delta Lake”意图取代凌乱的传统数据湖

栏目: 数据库 · 发布时间: 6年前

至顶网软件频道消息：大数据公司Databricks希望通过一个全新的开源项目来清理企业凌乱的数据湖。

Databricks表示，这个名为“Delta Lake”的项目有点类似于常规的数据湖，但通过确保所有存储信息是“干净的”且没有错误的，以提供更高的可靠性。

数据湖是以自然格式（通常是对象“blobs”或者文件）存储数据的系统或存储库。数据湖通常被作为所有企业数据的单一存储库，包括源系统数据的原始副本，和用于报告、可视化、分析和机器学习等任务的转换数据。

Databricks表示，由于多种原因，存储在传统数据湖中的信息可能是不可靠或者不准确的，这会导致写入失败、模式不匹配和数据不一致等问题，而且会在批量数据和流数据混合在一起的时候出现这些问题。

Databricks公司首席执行官Ali Ghodsi表示：“过去十年来，企业组织一直在构建数据湖，但却未能从数据中获得洞察力，因为这就像是垃圾的输入和输出，存在数据质量、可扩展性和性能方面的问题。”

Databricks表示，数据不可靠可能会让企业无法及时获得业务洞察，同时也会阻碍机器学习模式训练等需要数据准确性和一致性的计划。

Ghodsi补充说：“Delta Lake通过‘过滤’混乱数据并阻止这些数据进入Delta Lake来应对这些挑战。Delta Lake中的数据都是干净的数据。目前没有其他数据湖可以提供这种可靠性。”

Delta Lake通过管理批量数据和流数据之间的交易处理以及多次同时写入来确保数据的准确性和可靠性。那些使用Apache Spark分析数据的企业，可以利用Delta Lakes作为主要信息源，这样他们就不需要改动现有的数据架构。此外，Delta Lakes不需要构建在不同计算系统之间迁移信息所必需的复杂数据管道，所有企业信息都可以存储在Delta Lake中，让数百个应用可以根据需要使用湖中的信息。

Delta Lakes还让个人开发者更轻松了。开发者设置好就可以通过笔记本电脑访问Delta Lake了，并且快速构建一个数据管道通向他们正在使用的应用。他们还可以访问Delta Lake的每个早期版本，以进行审核、回滚或者重现机器学习实验的结果。此外，开发者可以将Parquets（存储大型数据集常用的格式）转换为Delta Lake，避免了对系统的密集读取和新数据写入。

Ghodsi表示：“Delta Lake适合于那些希望将原始的、不可靠的数据转换为可靠数据并可用于机器学习的开发者们。Delta Lake将简化数据工程，并解决开发者每天都会遇到的可靠性问题。”

Wikibon分析师James Kobielus表示，Delta Lake实际上听起来与数据仓库非常类似，他将数据仓库定义为“事实的单一版本”，管理着一个干净数据的存储库，这些数据被下游应用用于运营商业智能、报告、预测等工作负载。

“换句话说，Databricks似乎正在拓宽市场重点，以覆盖更广泛的传统企业用例例如数据仓库。但Delta Lakes存在一个显而易见的问题：除了能够分析Spark数据仓库中的数据之外，还能支持哪些常用开源数据仓库例如Apache Hive所不能支持的？”

Delta Lake现已在Apache 2.0许可下面向客户提供了。

以上所述就是小编给大家介绍的《Databricks打造“Delta Lake”意图取代凌乱的传统数据湖》，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对码农网的支持！

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

Java Web整合开发王者归来

刘京华 / 清华大学 / 2010-1 / 99.80元

《Java Web整合开发王者归来(JSP+Servlet+Struts+Hibernate+Spring)》全面介绍了Java Web开发中的各种相关技术及知识。全书分为9篇，内容层次清晰，难度循序渐进。第1篇为入门篇，内容包括Java Web开发概述等；第2篇为基础篇，内容包括Servlet技术、JSP技术、会话跟踪、过滤器Filter、监听器Listener等；第3篇为高级篇，内容包括JST......一起来看看《Java Web整合开发王者归来》这本书的介绍吧!

码农工具

Databricks打造“Delta Lake”意图取代凌乱的传统数据湖

Java Web整合开发王者归来

JSON 在线解析

RGB转16进制工具

XML 在线格式化