数据中台和数仓的关系

栏目: 数据库 · 发布时间: 6年前

内容简介:传统数仓有几个特点:传统数仓需要拷贝数据的重要原因是因为基于数据和存储需要尽可能的近。所以我们需要把MySQL等数据源的数据同步到数仓,才能进行进一步处理,另外传统数仓更关注的是数据的历史状态,所以导致数据规模庞大。 数仓本身也具备计算能力,同时也可以作为存储供其他计算系统使用。数据中台设计立足点本身是数据和存储分离的。那就意味着,数据中台本身并没有数据,数据来源是其他的的,比如传统数仓,业务数据库,用户在中台上传的文件(临时使用),各个业务系统的API(瞬时,我们不关心API之前的数据结果是什么样的)。因

传统数仓

传统数仓有几个特点:

  1. 数据具有历史性
  2. 基于文件存储(量大)
  3. 以表为形态,自带元数据存储(比如Hive)
  4. 在数仓的数据是其他数据的拷贝或者拷贝的加工

传统数仓需要拷贝数据的重要原因是因为基于数据和存储需要尽可能的近。所以我们需要把 MySQL 等数据源的数据同步到数仓,才能进行进一步处理,另外传统数仓更关注的是数据的历史状态,所以导致数据规模庞大。 数仓本身也具备计算能力,同时也可以作为存储供其他计算系统使用。

数据中台

数据中台设计立足点本身是数据和存储分离的。那就意味着,数据中台本身并没有数据,数据来源是其他的的,比如传统数仓,业务数据库,用户在中台上传的文件(临时使用),各个业务系统的API(瞬时,我们不关心API之前的数据结果是什么样的)。因为数据中台拥有这些数据源的适配器,所以相当于建立了互联管道。

我们知道数仓的优势是有元数据,通过表的方式很好的规整了数据。数据需要加工,所以一般数仓是有分层的,往上走一层,数据信息损耗就高一些。数据中台也有一个全局的元数据管理系统,管理也是一表为主,粒度到字段级别。数据中台这个元信息包含了个个子存储的元信息,以数据中台需要的形态进行组织。

数据中台的元数据其中承载的一个重要功能是数据地图,虽然在数据中台中,修建了通往所有数据的道路 但是当用户进来的时候 他无法知道具体某个数据的地址 也就没办法利用这些修好的道路。数据地图就是解决这个问题 我们需要结合自然语言处理,检索技术,目录分类技术,机器学习以及数据规范化来帮助找到数据地址。数据地址从来都不是面向人类有好的。

通过数据中台的数据地图,以及数据中台到各数据源的建立好的管道,那么我们就可以很好的找到我们要的数据以及对他们进行关联和处理,分析,甚至进一步成为机器学习的素材。

数据地图和传统数仓元数据的区别在于,

  1. 它记录了散落在各个孤岛的数据,而不像传统数仓,只是在自己的数据。
  2. 数据格式是异构的,不仅仅是文件。
  3. 他不仅仅存储表以及字段相关信息,同时还有还让这些信息可检索,可查询,可以更好的面向人而不是机器。

结论

数仓是数据中台的一个重要组成部分,也是元数据的一个重要来源,但是随着技术的发展,数据和存储必定是分离的,这就需要一个新的元信息系统(数据地图)来进行承载。


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

O2O进化论

O2O进化论

板砖大余、姜亚东 / 中信出版社 / 2014-5 / 49

在互联网的1.0时代,Online的商业和Offline的商业就像是两条平行线,没有交汇点,在移动浪潮下,他们正在交汇,这就是O2O(Online to Offline)。于是,人们认为:O2O就是线下将线上作为销售前台。结论是对的,但并非简单相加就可以达到。人们已经进入数据革命时期,O2O是线上和线下全流通的数据化工具,电子商务就是非数据商品的数据化。其次,O2O还是一种竞争格局。这决定了以O2......一起来看看 《O2O进化论》 这本书的介绍吧!

SHA 加密
SHA 加密

SHA 加密工具

XML 在线格式化
XML 在线格式化

在线 XML 格式化压缩工具

HEX CMYK 转换工具
HEX CMYK 转换工具

HEX CMYK 互转工具