内容简介:数字化转型的浪潮已经席卷各行各业,企业在数字化的过程中会积累大量数据,特别是IoT设备、移动应用程序和社交媒体产生的数据呈现井喷之势。根据Boeing公司的报道,1个发动机引擎每3分钟就会产生1TB数据,787机型每飞行6个小时会产生240TB数据。如何更好地存储这些海量数据、并利用这些数据提升企业智能化水平以及数字化服务能力,成为了新的挑战。除了来自事务系统和业务线应用程序的结构化数据外,企业中来自IoT 设备、移动应用程序和社交媒体产生的数据多为半结构化、非结构化数据。在捕获数据时,未定义数据结构 (
数字化转型的浪潮已经席卷各行各业,企业在数字化的过程中会积累大量数据,特别是IoT设备、移动应用程序和社交媒体产生的数据呈现井喷之势。根据Boeing公司的报道,1个发动机引擎每3分钟就会产生1TB数据,787机型每飞行6个小时会产生240TB数据。如何更好地存储这些海量数据、并利用这些数据提升企业智能化水平以及数字化服务能力,成为了新的挑战。
数据湖
为什么需要数据湖?
除了来自事务系统和业务线应用程序的结构化数据外,企业中来自IoT 设备、移动应用程序和社交媒体产生的数据多为半结构化、非结构化数据。在捕获数据时,未定义数据结构 (Schema),传统处理海量数据的数据仓库软件无法对没有数据结构(Sechma)的数据入库,这是需要一种新的处理方法快速处理这些数据。业界采用了一个集中式存储库,支持任意规模存储、可以按原样存储数据(包括结构化、半结构化和非结构化数据),无需事先将非结构化数据转成结构化数据,并可以运行不同类型的分析(包括 SQL 查询、可视化、机器学习等)以指导做出更好的决策,这种方法我们称之为数据湖。
数据湖与数据仓库的区别
典型的企业将会同时需要数据仓库和数据湖,因为它们可满足不同的应用场景。
HashData云端数据湖解决方案
HashData云端数据湖解决方案是一套基于云计算构建的数据湖解决方案。在QingCloud中,它采用QingStore作为数据湖存储,HashData作为数据湖的计算引擎。
相比传统的基于Hadoop构建的数据湖解决方案,该方案具有如下特点:
计算存储分离
HashData Cloud v2采用了计算存储分离的架构,数据存放到对象存储上面,计算层采用基于Greenplum内核的MPP计算引擎。当需要少量计算时,用户可以启动小集群。当计算量增加时,用户可以在几分钟内对集群进行扩容,而不需要搬移数据。相对于计算存储绑定的架构,新架构在保证查询需求的同时,减少了服务器资源成本。在PB级的数据量下,可以节省上百万的服务器采购成本。
多级存储
传统方案采用磁盘来存储数据,HashData数据湖采用对象存储作为持久数据存储。对象存储的成本是磁盘的1/5左右,是SSD的1/10左右,有明显价格优势。
但是,对象存储的IO速度相比块存储要低,HashData Cloud v2新架构采用了多级存储架构,持久层数据采用对象存储,Cahce层采用少量的磁盘或者SSD,通过HashData自带的冷热数据管理功能保证了数据查询性能。
客户价值
由于HashData云端数据湖解决方案采用了“计算存储分离”和“多级存储”的技术特点,可以在保证查询性能保持不变前提下,大大减少客户的整体拥有成本,无论是服务器成本还是存储成本。在PB级数据量下,可以减少为原来解决方案的1/10。
成功案例
HashData云端数据湖解决方案可广泛应用于工业数据湖、用户行为分析和医疗数据湖。
中国电信下属分公司采用HashData数据湖解决方案替代了传统的Hadoop解决方案,从原来的100多Nodes的Hadoop集群,减少到近20多Nodes的HashData集群,大大减少了服务器成本,为客户节省了近百万的成本。
中国移动下属分公司也在采用HashData数据湖解决方案,采用了新的方案后,服务器数量减少了几十台,除了成本的大幅削减外,数据中心的管理也变得更加简单了。
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:- 芯片帝国之场景篇 | GPU占领云端,手机应用ASIC,FPGA发力云端和车载
- 亳州:城市管理走上“云端”
- 亳州:城市管理走上“云端”
- 云端木犀-MAE初步构想
- SmartStack 介绍 —— 云端的服务发现
- HomeAway分享云端事件溯源经验
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。