基于Hadoop的数据仓库

栏目: 服务器 · 发布时间: 6年前

内容简介：数据仓库是面向主题的、集成的、具有时间特征的、稳定的数据集合，用以支持经营管理中的决策制定过程不了解的数据仓库基本概念的，可以参考之前《了解一下数据仓库》这篇文章。

1 什么是数据仓库

数据仓库是面向主题的、集成的、具有时间特征的、稳定的数据集合，用以支持经营管理中的决策制定过程

典型应用:
- 报表生成
- 数据分析
- 数据挖掘
数据仓库其他特征
- 数据量非常大（TB以上）
- 是数据库的一种新型应用
- 使用人员较少
商用数据仓库
- 典型代表: db2, teradata, vertica
- 价格昂贵，支持数据量通常TB或以下
大数据时代数据仓库
- 数据量非常大
- 扩展性和容错性很重要
- 成本考量

不了解的数据仓库基本概念的，可以参考之前《了解一下数据仓库》这篇文章。

2 基于Hadoop数据仓库的基本架构

技术手段
- 通常使用Hive作为数据仓库
  - 超大数据集设计的计算扩展能力
  - 支持HQL查询 — 简单，学习代价低
  - 统一的元数据管理
基本特点
- 支持海量数据
- 多维数据分析
- 使用人员较少
- 数据延迟较高

2.1 基于Hadoop的数据仓库:第一版

基于Hadoop的数据仓库

优点
- 满足了数据仓库的基本要求
- 能够处理海量数据
- 系统扩展性和容错性极好
缺点
- 性能较低，实时性不好

2.2 基于Hadoop的数据仓库:第二版

基于Hadoop的数据仓库

改进
- 使用MPP(Presto)系统提高查询性能
优点
- 满足了数据仓库的基本要求
- 能够处理海量数据
- 系统扩展性和容错性极好
- 实时性较好
缺点
- 数据延迟高（数据从产生到入库，再到查询，整个周期长）

2.3 基于Hadoop的数据仓库:第三版（增加实时pipeline）

基于Hadoop的数据仓库

改进
- 使用Spark Streaming系统降低数据延迟
优点
- 满足了数据仓库的基本要求
- 能够处理海量数据
- 系统扩展性和容错性极好
- 实时性较好
- 数据延迟低

3 数据仓库具体实例

网站报表系统

基本作用
- 按照业务要求生成报表
- 报表可实时产生或按天产生
数据规模
- 数据量: TB级
- 表数目: 100+
用户量
- 约几十个

3.1 收集数据

基于Hadoop的数据仓库

3.2 ETL

基于Hadoop的数据仓库

ETL
- Extract, Transform, Load
- 可使用MapReduce/Spark/Pig实现
- 存储格式: 行式存储与列式存储
行存储与列存储

基于Hadoop的数据仓库

如何创建带压缩的ORC表

ETL后日志格式（文本格式）如下:

基于Hadoop的数据仓库

临时表（文本格式）定义如下:

CREATE EXTERNAL TABLE tmp_logs (
      domain_id INT,
      log_time STRING,
      log_date STRING,
      log_type INT,
      uin BIGINT
  )
  ROW FORMAT DELIMITED
  FIELDS TERMINATED BY ','
  STORED AS TEXTFILE
  LOCATION '/user/hivetest/logs';

将数据导入临时表tmp_logs: LOAD DATA INPATH '/nginx/logs/2016011206' OVERWRITE INTO TABLE tmp_logs;

将临时表中数据导入到orc格式的表中:

CREATE TABLE logs (
      domain_id INT,
      log_time STRING,
      log_date STRING,
      log_type INT,
      uin BIGINT
  )
  PARTITION BY(log_time STRING)
  STORED AS ORC
  tblproperties("orc.compress"="SNAPPY");

  INSERT INTO TABLE logs PARTITION(dt='2016-01-12-06') SELECT * FROM tmp_logs;

压缩算法

基于Hadoop的数据仓库

查询

SELECT domain_id, sum(log_type) FROM logs WHERE
  log_time>'2016-01-12-06' GROUP BY domain_id;

3.3 参数化报表与可视化

基于Hadoop的数据仓库

参数化报表
- 根据用户定制的数据要求，生成SQL
可视化工具
- Echarts: http://echarts.baidu.com/
- D3.js: https://d3js.org/
- Tableau: 商用可视化软件

4 Summary

基于Hadoop构建数据仓库的好处
- 开源免费
- 支持海量数据
- 周边工具成熟
基于Hadoop构建数据仓库的流程
- 数据收集
- 数据ETL
- 参数化报表与可视化

基于Hadoop的数据仓库一个正在技术专家成长道路上不断努力前进的程序员

（转载本站文章请注明作者和出处buildupchao）

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

读屏时代

(美)Naomi S. Baron（内奥米·S.巴伦） / 庞洋 / 电子工业出版社 / 2016-7 / 55.00

书中作者探讨了技术如何重塑人们对阅读的定义。数字阅读越来越受欢迎，更便利、节约成本、并把免费书籍提供给全世界的读者。但是，作者也指出其弊处在于读者很容易被设备上的其他诱惑分心、经常走马观花而非深入阅读。更重要的是，人们阅读方式的变化会影响了作者的写作方式。为了迎合人们阅读习惯的转变，许多作家和出版商的作品越来越短小和碎片化，或者更青睐无需思考和细读的作品。作者比较了纸质阅读和在线阅读的重要性，包括......一起来看看《读屏时代》这本书的介绍吧!

码农工具

基于Hadoop的数据仓库

1 什么是数据仓库

2 基于Hadoop数据仓库的基本架构

2.1 基于Hadoop的数据仓库:第一版

2.2 基于Hadoop的数据仓库:第二版

2.3 基于Hadoop的数据仓库:第三版（增加实时pipeline）

3 数据仓库具体实例

3.1 收集数据

3.2 ETL

3.3 参数化报表与可视化

4 Summary

读屏时代

MD5 加密

html转js在线工具

HSV CMYK 转换工具