我所认识的数据仓库(Data Warehouse)

栏目: 数据库 · 发布时间: 7年前

内容简介:我所认识的数据仓库(Data Warehouse)

感谢关注天善智能,走好数据之路↑↑↑

欢迎关注天善智能,我们是专注于商业智能BI,大数据,数据分析领域的垂直社区,学习,问答、求职一站式搞定!

首先申明我不是技术大牛,只是一个奋斗在一线的BI实施人员。做过几个DW相关的相关的项目,前不久有个项目客户要求对DW的各层给出准确的解释,借着这个机会总结下我所认识的DW,总结不对的地方欢迎拍砖指教。

DW是是1990年w.h.inmon提出的,定义是:面向主题的,集成的,稳定的,随时间变化的数据集合,用于支持管理决策过程。 DW是属于BI的一个子集,BI(Business Intelligence)是将与企业有关的数据包括内部数据,外部数据等转化成有用信息,形成竞争力的过程。结构如下:

我所认识的数据仓库(Data Warehouse)

数据仓库主要包括:源端数据,ETL,ODS,DW,数据集市

源端数据:

对企业有价值的数据都可以称作源端数据,主要是企业OLTP系统产生的数据。但在大数据时代数据往往不限于这些,见BI简介。比如对于某出国留学机构,新浪微博中关于出国留学话题的微博是有用数据,他们可以通过爬虫爬取微博,经过 Python 或者R语言处理(因为微博一般是非结构的文本)形成用户需求,情感倾向等有用信息。

ETL:数据清洗转化加载。主要通过工具(比如DataStage,SSIS,Kettle等)结合 sql 实现。ETL可以说是DW的基石,数据的质量,更新的效率都由ETL决定。

ODS:操作数据存储(Operational Data Store)它是贴源的,全局的, 近期 的数据存储。主要作用是:

●近期数据的OLAP:基于ODS制作近期近实时的报表。近期是指客户查看报表频率最高的时间段,比如物料供应报表99%的查询都是最近一个月的数据,此时如果你的

报表是基于DW(DW存放了全部7年的历史数据)开发的,首先查询查询效率上肯定没有基于ODS快,其次当涉及频繁更新和异常数据修改时DW处理起来就比较麻烦。

●支持企业级跨系统OLTP:比如新增一个代理商涉及CRM系统,财务系统,物理供应系统的记录改变,如果没有ODS层就需要一个个去修改子系统,这样既麻烦又对数据的准确性带来了风险。

DW:顾名思义就是对集团数据的全面存储,也有两大作用:

1、准统一的,高质量的集团信息统一视图,更好的保护企业数据资产

2、为数据分析和挖掘提供基础。

数据流从源端经过ETL可以直接进入DW也可以经过

不得不吐槽下:一个20多年提出的概念,现在没有必要亦步亦趋去实现,应该根据实际情况灵活的选择 工具 或者方法区去实现。就像20多年前有人告诉你从A地到B地要先走路去C,再从C做汽车去D,再从D坐火车去B。在当时可能是个标准的解决方案。但20年后的今天你没有必要去实践那个路线,因为时代变化太快,特别是IT行业。

天善学院svip包含Excel BI、Python爬虫案例、Python机器学习、Python数据科学家、大数据、数据分析报告、数据分析师体系、深度学习、R语言案例10套课程火爆报名中,欢迎大家关注。

本文作者:天善智能社区攻城的狮子


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

Vim实用技巧

Vim实用技巧

[英] Drew Neil / 杨源、车文隆 / 人民邮电出版社 / 2014-5-1 / 59.00元

vim是一款功能丰富而强大的文本编辑器,其代码补全、编译及错误跳转等方便编程的功能特别丰富,在程序员中得到非常广泛的使用。vim能够大大提高程序员的工作效率。对于vim高手来说,vim能以与思考同步的速度编辑文本。同时,学习和熟练使用vim又有一定的难度。 《vim实用技巧》为那些想要提升自己的程序员编写,阅读本书是熟练地掌握高超的vim技巧的必由之路。全书共21章,包括121个技巧。每一章......一起来看看 《Vim实用技巧》 这本书的介绍吧!

UNIX 时间戳转换
UNIX 时间戳转换

UNIX 时间戳转换

RGB HSV 转换
RGB HSV 转换

RGB HSV 互转工具