内容简介:DataMaster划分为六个中心,分别为一、采集交换中心
DataMaster 是浙江移动最新打造的一站式敏捷 数据交付平台 ,其通过整合 大数据采集 、取数、开发、挖掘、开放、调度等多种能力,使企业能够端到端的快速完成数据加工和交付,从而高效释放数据价值。
DataMaster划分为六个中心,分别为 采集交换中心、取数操作中心、 数据开发 中心、敏捷挖掘中心、 数据开放 中心及运营管理中心 ,这里做一简要介绍,希望于你有启示。
一、采集交换中心
实现了异构的 数据库 /文件系统之间高速数据采集交换,比如浙江移动 大数据 的采集交换任务几十万,必须依托于分布式,开放式灵活架构,主要包括五点:
1、采用去中心化的技术架构,支撑任务分片、分布式调度和执行,支持一站式运维;
2、通过网络、内存、磁盘资源线性规划,实现任务运行负载平衡;
3、提供多租户管理能力,实现能力的对外开放,很多数据交换都是应用驱动,必须提供灵活的支撑;
4、提供RPC、REST等服务能力,实现各类采集模块解耦,方便与第三方集成,一定要让 工具 适应场景,而不是反过来;
5、提供完全可视化的操作界面,无缝集成数据目录、采集模板等功能,降低数据采集和分发门槛。
二、取数操作中心
可以认为是ORACLE开发工具PL/DEV的大数据平台版本,其通过封装 SQL 语法,提供各类异构数据平台的统一查询入口。
我们用了多年时间进行打磨,项目经理变成了产品经理,体验才做到了与PL/DEV基本持平,代价不可谓不大,但PL/DEV是死的,封闭的,无法定制的,而取数操作中心还在演化,包括但不限于:
支持多窗口并行操作、数据字典随时在线索引、表名字段名智能联想、快捷键自定义、取数操作轨迹跟踪审计以及查询权限隔离管控等特性。
支持Hive、Spark、Gbase、Oracle、 MySQL 、Aster、Teradata、EsgynDB等十几种主流计算平台。
三、数据开发中心
可以分离线和实时两大部分。
1、离线开发交付
采用组件化方式,针对Hadoop、RDBMS、MPP等数据库或平台特点,对既定的、常用的数据、规则、功能、方法等进行定制封装,实现跨平台统一开发,开发人员通过可视化界面以拖拉拽方式,即可完成相关数据处理的开发,数据处理更加简化,处理效率更高,套路大家都差不多,不同的就是体验吧。
2、实时开发交付
以Flink为基础构建实时计算能力,构建了统一的实时数据模型开发、调度,运维一体化工具,提供了基于图形化组件的实时数据编排服务,并实现统一的元数据管理。
同时针对实时数据存储特点,实现非结构化的模型管理,解决线下流式数据开发效率低下,缺乏数据工具支撑工具等问题,也就是说,离线模型和实时模型现在能纳入同一套数据管理体系进行管理。
我们的理念就是甭管离线和在线实现方式是的如何不同,对于前端开发人员一定要保持足够透明和简洁,否则就会影响它的普及使用。
四、敏捷挖掘中心
笔者以前曾经做过介绍,从实用的角度讲,R/Python还是主流的挖掘引擎,现在最大的问题还不是深度学习的问题,而是数据准备、模型训练、模型发布、数据管理各项任务流程割裂的问题。
敏捷挖掘中心重点解决二个问题,一是R/Python集成数据目录等能力,也就是说,挖掘引擎可以直接复用企业数据字典的表,无需人工导入导出等工作,二是训练后的模型可以作为节点一键发布到数据开发中心的流程中。
诸如阿里的挖掘平台都是这种一站式的理念,当然它们做的更彻底,整个训练都是图形化的,但有利也有弊,不同的企业需要根据自己的情况灵活调整。
除了敏捷挖掘,也在采用其它各种挖掘引擎,包括SPARK,分布式SPSS,基于GPU的TF等,这些引擎各有优点和适用范围,如果后续使用的多了,也会考虑敏捷化。
五、数据开放中心
数据安全是企业进行数据价值变现的重中之重,我们的理念就是数据和应用开发可以百花齐放,但数据出口必须只有一个,因此,几年前就建设了数据安全网关。
数据安全网关以数据服务API为基础,通过建设服务生产、服务管控、服务提供、数据产品运营计费、数据服务安全管控、合作伙伴运营管理等多个模块,实现对大数据开放增值过程的全面管理。
通过建设大数据安全网关,不仅有效支撑了对内数据服务工作,也为大数据对外增值变现提供了基础安全保障。
六、运营管理中心
运营管理中心包括 租户运营管理、数据资产管理、数据运维管控、数据模型超市 等系列功能,这里做简单的介绍:
1、租户运营管理
DataMaster与企业的云管平台贯通,实现租户和数据资源的管理和分配,包含Hadoop、Hive、Mpp、Rdb等各类资源的纳管、资源申请流程贯通以及资源配置和使用信息的可视化展示,以下是从资源申请到最后标签发布的全流程示意图。
2、数据资产管理
提供了一套标准化、流程化、自动化、一体化的数据资产管理工具,包括数据架构规划、业务数据变更管理、元数据管理、数据质量管理、企业级数据字典等功能,我们重点关注数据资产管理的四个方面:
一是业务系统数据资产的纳管,要从源头解决数据资产准确性问题。
二是元数据管理嵌入到开发流程中,解决二张皮问题。
三是关于数据质量的影响评估,要具备从源表、作业、中间表到应用的全流程分析能力。
四是数据字典的运营,要确保可用性,降低管理成本。
以下是企业数据字典的界面示例。
3、数据运维管控
数据运维要实现数据全生命周期生产保障,主要包括一站式各类异构数据库作业任务运行监控告警、作业智能诊断、数据质量预警等系列功能。
大数据运维的重大挑战一是对于各种异构平台、作业级别资源耗用的自动化评估和优化,二是数据质量的监控,底层的数据质量问题往往牵一发而动全身,对于海量数据必须用系统化的手段来解决,以下是作业监控的列表示例。
4、数据模型超市
数据交付后一个很大的问题就是开放共享,比如一个租户开发了一个很好的模型,但企业其他的组织和个人不清楚,或者清楚了也不容易移植,很多企业都面临模型最佳实践无法快速复制的挑战。
我们认为还是需要从平台层面解决问题,模型超市是一种尝试,其依托于统一开发和数据资产管理引擎,通过模型评估、模型分享、热度排名、一键移植等功能来实现快速复制共享,它不仅是个数据社区,更是个生产平台。
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
Python for Everyone
Cay S. Horstmann、Rance D. Necaise / John Wiley & Sons / 2013-4-26 / GBP 181.99
Cay Horstmann's" Python for Everyone "provides readers with step-by-step guidance, a feature that is immensely helpful for building confidence and providing an outline for the task at hand. "Problem S......一起来看看 《Python for Everyone》 这本书的介绍吧!