拥有敏捷数据交付平台(DataMaster)是怎样一种体验?

栏目: 数据库 · 发布时间: 5年前

内容简介:DataMaster划分为六个中心,分别为一、采集交换中心

DataMaster 是浙江移动最新打造的一站式敏捷 数据交付平台 ,其通过整合 大数据采集 、取数、开发、挖掘、开放、调度等多种能力,使企业能够端到端的快速完成数据加工和交付,从而高效释放数据价值。

DataMaster划分为六个中心,分别为 采集交换中心、取数操作中心、 数据开发 中心、敏捷挖掘中心、 数据开放 中心及运营管理中心 ,这里做一简要介绍,希望于你有启示。

一、采集交换中心

实现了异构的 数据库 /文件系统之间高速数据采集交换,比如浙江移动 大数据 的采集交换任务几十万,必须依托于分布式,开放式灵活架构,主要包括五点:

1、采用去中心化的技术架构,支撑任务分片、分布式调度和执行,支持一站式运维;

2、通过网络、内存、磁盘资源线性规划,实现任务运行负载平衡;

3、提供多租户管理能力,实现能力的对外开放,很多数据交换都是应用驱动,必须提供灵活的支撑;

4、提供RPC、REST等服务能力,实现各类采集模块解耦,方便与第三方集成,一定要让 工具 适应场景,而不是反过来;

5、提供完全可视化的操作界面,无缝集成数据目录、采集模板等功能,降低数据采集和分发门槛。

拥有敏捷数据交付平台(DataMaster)是怎样一种体验?

二、取数操作中心

可以认为是ORACLE开发工具PL/DEV的大数据平台版本,其通过封装 SQL 语法,提供各类异构数据平台的统一查询入口。

我们用了多年时间进行打磨,项目经理变成了产品经理,体验才做到了与PL/DEV基本持平,代价不可谓不大,但PL/DEV是死的,封闭的,无法定制的,而取数操作中心还在演化,包括但不限于:

支持多窗口并行操作、数据字典随时在线索引、表名字段名智能联想、快捷键自定义、取数操作轨迹跟踪审计以及查询权限隔离管控等特性。

支持Hive、Spark、Gbase、Oracle、 MySQL 、Aster、Teradata、EsgynDB等十几种主流计算平台。

拥有敏捷数据交付平台(DataMaster)是怎样一种体验?

三、数据开发中心

可以分离线和实时两大部分。

1、离线开发交付

采用组件化方式,针对Hadoop、RDBMS、MPP等数据库或平台特点,对既定的、常用的数据、规则、功能、方法等进行定制封装,实现跨平台统一开发,开发人员通过可视化界面以拖拉拽方式,即可完成相关数据处理的开发,数据处理更加简化,处理效率更高,套路大家都差不多,不同的就是体验吧。

拥有敏捷数据交付平台(DataMaster)是怎样一种体验?

2、实时开发交付

以Flink为基础构建实时计算能力,构建了统一的实时数据模型开发、调度,运维一体化工具,提供了基于图形化组件的实时数据编排服务,并实现统一的元数据管理。

同时针对实时数据存储特点,实现非结构化的模型管理,解决线下流式数据开发效率低下,缺乏数据工具支撑工具等问题,也就是说,离线模型和实时模型现在能纳入同一套数据管理体系进行管理。

我们的理念就是甭管离线和在线实现方式是的如何不同,对于前端开发人员一定要保持足够透明和简洁,否则就会影响它的普及使用。

拥有敏捷数据交付平台(DataMaster)是怎样一种体验?

四、敏捷挖掘中心

笔者以前曾经做过介绍,从实用的角度讲,R/Python还是主流的挖掘引擎,现在最大的问题还不是深度学习的问题,而是数据准备、模型训练、模型发布、数据管理各项任务流程割裂的问题。

敏捷挖掘中心重点解决二个问题,一是R/Python集成数据目录等能力,也就是说,挖掘引擎可以直接复用企业数据字典的表,无需人工导入导出等工作,二是训练后的模型可以作为节点一键发布到数据开发中心的流程中。

拥有敏捷数据交付平台(DataMaster)是怎样一种体验?

诸如阿里的挖掘平台都是这种一站式的理念,当然它们做的更彻底,整个训练都是图形化的,但有利也有弊,不同的企业需要根据自己的情况灵活调整。

除了敏捷挖掘,也在采用其它各种挖掘引擎,包括SPARK,分布式SPSS,基于GPU的TF等,这些引擎各有优点和适用范围,如果后续使用的多了,也会考虑敏捷化。

五、数据开放中心

数据安全是企业进行数据价值变现的重中之重,我们的理念就是数据和应用开发可以百花齐放,但数据出口必须只有一个,因此,几年前就建设了数据安全网关。

数据安全网关以数据服务API为基础,通过建设服务生产、服务管控、服务提供、数据产品运营计费、数据服务安全管控、合作伙伴运营管理等多个模块,实现对大数据开放增值过程的全面管理。

通过建设大数据安全网关,不仅有效支撑了对内数据服务工作,也为大数据对外增值变现提供了基础安全保障。

拥有敏捷数据交付平台(DataMaster)是怎样一种体验?

六、运营管理中心

运营管理中心包括 租户运营管理、数据资产管理、数据运维管控、数据模型超市 等系列功能,这里做简单的介绍:

1、租户运营管理

DataMaster与企业的云管平台贯通,实现租户和数据资源的管理和分配,包含Hadoop、Hive、Mpp、Rdb等各类资源的纳管、资源申请流程贯通以及资源配置和使用信息的可视化展示,以下是从资源申请到最后标签发布的全流程示意图。

拥有敏捷数据交付平台(DataMaster)是怎样一种体验?

2、数据资产管理

提供了一套标准化、流程化、自动化、一体化的数据资产管理工具,包括数据架构规划、业务数据变更管理、元数据管理、数据质量管理、企业级数据字典等功能,我们重点关注数据资产管理的四个方面:

一是业务系统数据资产的纳管,要从源头解决数据资产准确性问题。

二是元数据管理嵌入到开发流程中,解决二张皮问题。

三是关于数据质量的影响评估,要具备从源表、作业、中间表到应用的全流程分析能力。

四是数据字典的运营,要确保可用性,降低管理成本。

以下是企业数据字典的界面示例。

拥有敏捷数据交付平台(DataMaster)是怎样一种体验?

3、数据运维管控

数据运维要实现数据全生命周期生产保障,主要包括一站式各类异构数据库作业任务运行监控告警、作业智能诊断、数据质量预警等系列功能。

大数据运维的重大挑战一是对于各种异构平台、作业级别资源耗用的自动化评估和优化,二是数据质量的监控,底层的数据质量问题往往牵一发而动全身,对于海量数据必须用系统化的手段来解决,以下是作业监控的列表示例。

拥有敏捷数据交付平台(DataMaster)是怎样一种体验?

4、数据模型超市

数据交付后一个很大的问题就是开放共享,比如一个租户开发了一个很好的模型,但企业其他的组织和个人不清楚,或者清楚了也不容易移植,很多企业都面临模型最佳实践无法快速复制的挑战。

我们认为还是需要从平台层面解决问题,模型超市是一种尝试,其依托于统一开发和数据资产管理引擎,通过模型评估、模型分享、热度排名、一键移植等功能来实现快速复制共享,它不仅是个数据社区,更是个生产平台。


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

Boolean Reasoning

Boolean Reasoning

Brown, Frank Markham / 2003-4 / $ 19.15

A systematic treatment of Boolean reasoning, this concise, newly revised edition combines the works of early logicians with recent investigations, including previously unpublished research results. Th......一起来看看 《Boolean Reasoning》 这本书的介绍吧!

MD5 加密
MD5 加密

MD5 加密工具

XML、JSON 在线转换
XML、JSON 在线转换

在线XML、JSON转换工具

RGB HSV 转换
RGB HSV 转换

RGB HSV 互转工具