大数据之hadoop / hive / hbase 的区别是什么?有什么应用场景?

栏目: 数据库 · 发布时间: 6年前

内容简介:它是一个通俗的说是一个它的优势是对历史数据进行处理,用时下流行的说法是离线计算,因为它的

它是一个 分布式计算+分布式文件系统 ,前者其实就是 MapReduce ,后者是 HDFS 。后者可以独立运行,前者可以选择性使用,也可以不使用

2. hive

通俗的说是一个 数据仓库 ,仓库中的数据是被hdfs管理的数据文件,它支持类似 sql 语句的功能,你可以通过该语句完成分布式环境下的计算功能, hive会把语句转换成MapReduce,然后交给hadoop执行 。这里的计算,仅限于查找和分析,而不是更新、增加和删除。

它的优势是对历史数据进行处理,用时下流行的说法是离线计算,因为它的 底层是MapReduce ,MapReduce在实时计算上性能很差。它的做法是把数据文件加载进来作为一个hive表(或者外部表),让你觉得你的sql操作的是传统的表。

3. hbase

通俗的说,hbase的作用类似于数据库,传统数据库管理的是集中的本地数据文件,而 hbase基于hdfs实现对分布式数据文件的管理,比如增删改查 。也就是说,hbase只是利用hadoop的hdfs帮助其管理数据的持久化文件(HFile), 它跟MapReduce没任何关系。

hbase的优势在于实时计算,所有实时数据都直接存入hbase中,客户端通过API直接访问hbase,实现实时计算。由于它使用的是nosql,或者说是列式结构,从而提高了查找性能,使其能运用于大数据场景,这是它跟MapReduce的区别。

总结

hadoop是hive和hbase的基础,hive依赖hadoop,而hbase仅依赖hadoop的hdfs模块。

hive适用于 离线数据的分析 ,操作的是通用格式的(如通用的日志文件)、被hadoop管理的数据文件,它支持类sql,比编写MapReduce的 java 代码来的更加方便,它的定位是数据仓库,存储和分析历史数据。

hbase适用于 实时计算 ,采用列式结构的nosql,操作的是自己生成的特殊格式的HFile、被hadoop管理的数据文件,它的定位是数据库,或者叫DBMS。

hive可以直接操作hdfs中的文件作为它的表的数据,也可以使用hbase数据库作为它的表。


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

人人都是产品经理

人人都是产品经理

苏杰 / 电子工业出版社 / 2012-6 / 45.00元

本书为《人人都是产品经理》的升级版,是写给“1到3岁的产品经理”的书,适合刚入门的产品经理、产品规划师、需求分析师,以及对做产品感兴趣的学生,用户体验、市场运营、技术部门的朋友们,特别是互联网、软件行业。作为一名“4岁的产品经理”,作者讲述了过去3年的经历与体会,与前辈们的书不同,本书就像你走到作者身边,说“嗨,哥们!晚上有空吃个饭吗,随便聊聊做产品的事吧”,然后作者说“好啊”。 书名叫“......一起来看看 《人人都是产品经理》 这本书的介绍吧!

MD5 加密
MD5 加密

MD5 加密工具

RGB HSV 转换
RGB HSV 转换

RGB HSV 互转工具

RGB CMYK 转换工具
RGB CMYK 转换工具

RGB CMYK 互转工具