#研发解决方案#数据移山:接入、迁移、同步一站式

栏目: 数据库 · 发布时间: 6年前

内容简介:数据中心赵兴申 最后更新于2018/8/7关键词:数据接入,数据迁移,实时同步,数据库变更订阅中心提纲:

数据中心赵兴申 最后更新于2018/8/7

关键词:数据接入,数据迁移,实时同步,数据库变更订阅中心

提纲:

1.      移山产生背景

2.      技术栈

3.      移山数据处理能力

4.      小结

移山是数据中心推出的异构数据源之间的数据迁移自动化平台,它旨在 解决第三方ISV数据接入、实时数据(单向/双向)同步、大数据集群间的数据迁移等问题

移山前台部分由刘永飞,后台由赵兴申、谭清勇等同学开发完成。2018年3月9日移山(YiShan)一期上线运行。

0x00 移山产生背景

随着数屏、魔盒、数据开放实验室等大数据组件上线运行,我司数据仓库体系得到了进一步的发展,生产效率进一步提高,但是在数据接入、数据迁移、分析结果输出还存在以下问题:

  • 业务库数据进入仓库流程复杂:

    • 对于数据仓库中不存在的业务表,数据挖掘工程师需要先在 数据库变更订阅中心 配置该表,数据才会流向HBase(数据湖),然后还需要编码开发才能将HBase中的数据同步至数据仓库。这个过程操作复杂,极大制约了数据的开发效率;

  • 计算任务和结果输出未完全分离:

    • 我们的离线计算任务采用 spark 进行计算,任务计算完成后需要将分析结果输出到下游数据使用方(一般输出到 MySQL 数据库),数据计算和结果输出封装在一个 spark 任务中。计算结果数据量大的情况下,经常会导致 spark 任务不能正常结束或假死;

  • 第三方数据接入方案不成熟:

    • 对于第三方数据接入,我们之前有一个简易版的数据采集服务,采用内存队列方式处理接入数据,数据量大的情况下,经常会造成接口访问超时,影响数据的完整性。

为了解决上述问题,我们需要一个完整的数据接入、同步、迁移解决方案, 移山 项目应运而生。同时我们要求可视化配置,可排查(最好是全链路可排查),可调度,支持下层集群服务(如kafka、hbase等)的扩容或缩容,最重要的一点是自带监控报警。

0x01 技术栈

#研发解决方案#数据移山:接入、迁移、同步一站式

0x02 移山数据处理能力

2.1 三大数据通道

数据接入、数据迁移、实时同步三大数据通道涵盖所有业务场景。

#研发解决方案#数据移山:接入、迁移、同步一站式

2.2 完备的监控报警机制

  • 报警设置

系统根据不同数据通道,采用相应的监控报警机制,例如:对数据接入、数据迁移通道采用达到一定的重试阈值,才进行报警;对实时同步这种不能进行重试的任务,立即报警。

#研发解决方案#数据移山:接入、迁移、同步一站式

  • 运行监控

对数据接入、数据迁移提供详细的任务运行监控,并详细记载任务执行日志、错误日志、成功记录数、失败记录数等信息。

#研发解决方案#数据移山:接入、迁移、同步一站式

2.3 良好的数据、异常分析能力

移山系统提供了数据分析,帮助了解每日数据同步记录数、执行时长等信息。

#研发解决方案#数据移山:接入、迁移、同步一站式

0x03 小结

综上所述,移山的三大数据通道已全部涵盖日常数据迁移场景。移山以组件的方式集成到数据仓库体系中,形成如下图所示的大数据技术支撑体系。

#研发解决方案#数据移山:接入、迁移、同步一站式

-EOF-


以上所述就是小编给大家介绍的《#研发解决方案#数据移山:接入、迁移、同步一站式》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

高性能网站

高性能网站

(美)苏德 / 东南大学出版社 / 2008年 / 28.00元

《高性能网站》中的规則向你解释了可以怎样优化网站中包含的Ajax、CSS、JavaScript、Flash和图片。每个规则都可以在本书的网站上找到对应的特别例子和代码片段。这些规則包括以下内容:减少HTTP连接请求、使用内容分发网络(ContentDeliveryNetwork)、在HTTP协议头添加过期时间、把部分内容变成Gzip格式、把样式表(stylesheets)放在顶部、将脚本放在底部、......一起来看看 《高性能网站》 这本书的介绍吧!

HTML 压缩/解压工具
HTML 压缩/解压工具

在线压缩/解压 HTML 代码

图片转BASE64编码
图片转BASE64编码

在线图片转Base64编码工具

XML 在线格式化
XML 在线格式化

在线 XML 格式化压缩工具