大数据之hadoop / hive / hbase 的区别是什么?有什么应用场景?

栏目: 数据库 · 发布时间: 5年前

内容简介:它是一个通俗的说是一个它的优势是对历史数据进行处理,用时下流行的说法是离线计算,因为它的

它是一个 分布式计算+分布式文件系统 ,前者其实就是 MapReduce ,后者是 HDFS 。后者可以独立运行,前者可以选择性使用,也可以不使用

2. hive

通俗的说是一个 数据仓库 ,仓库中的数据是被hdfs管理的数据文件,它支持类似 sql 语句的功能,你可以通过该语句完成分布式环境下的计算功能, hive会把语句转换成MapReduce,然后交给hadoop执行 。这里的计算,仅限于查找和分析,而不是更新、增加和删除。

它的优势是对历史数据进行处理,用时下流行的说法是离线计算,因为它的 底层是MapReduce ,MapReduce在实时计算上性能很差。它的做法是把数据文件加载进来作为一个hive表(或者外部表),让你觉得你的sql操作的是传统的表。

3. hbase

通俗的说,hbase的作用类似于数据库,传统数据库管理的是集中的本地数据文件,而 hbase基于hdfs实现对分布式数据文件的管理,比如增删改查 。也就是说,hbase只是利用hadoop的hdfs帮助其管理数据的持久化文件(HFile), 它跟MapReduce没任何关系。

hbase的优势在于实时计算,所有实时数据都直接存入hbase中,客户端通过API直接访问hbase,实现实时计算。由于它使用的是nosql,或者说是列式结构,从而提高了查找性能,使其能运用于大数据场景,这是它跟MapReduce的区别。

总结

hadoop是hive和hbase的基础,hive依赖hadoop,而hbase仅依赖hadoop的hdfs模块。

hive适用于 离线数据的分析 ,操作的是通用格式的(如通用的日志文件)、被hadoop管理的数据文件,它支持类sql,比编写MapReduce的 java 代码来的更加方便,它的定位是数据仓库,存储和分析历史数据。

hbase适用于 实时计算 ,采用列式结构的nosql,操作的是自己生成的特殊格式的HFile、被hadoop管理的数据文件,它的定位是数据库,或者叫DBMS。

hive可以直接操作hdfs中的文件作为它的表的数据,也可以使用hbase数据库作为它的表。


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

Hibernate

Hibernate

James Elliott / O'Reilly Media, Inc. / 2004-05-10 / USD 24.95

Do you enjoy writing software, except for the database code? Hibernate:A Developer's Notebook is for you. Database experts may enjoy fiddling with SQL, but you don't have to--the rest of the appl......一起来看看 《Hibernate》 这本书的介绍吧!

HTML 压缩/解压工具
HTML 压缩/解压工具

在线压缩/解压 HTML 代码

XML、JSON 在线转换
XML、JSON 在线转换

在线XML、JSON转换工具

UNIX 时间戳转换
UNIX 时间戳转换

UNIX 时间戳转换