石器时代
- 石器时代:MapReduce诞生之前的时期
- 数据的大规模处理问题早已存在,但数据的大规模处理技术还处于彷徨阶段
- 每个公司或个人都可能有自己的一套 工具 处理数据,但没有提炼抽象出一个系统的方法
青铜时代
- 2003年,MapReduce的诞生标志了超大规模数据处理的第一次革命
- 论文:《MapReduce: Simplified Data Processing on Large Clusters》
- Jeff Dean和Sanjay Ghemawat从纷繁复杂的业务逻辑中,抽象出通用的编程模型:Map和Reduce
- 后来的Hadoop是对GFS、BigTable、MapReduce的开源实现
蒸汽机时代
- 从2016年开始,Google在新员工的培训中把MapReduce替换成内部称为 FlumeJava 的数据处理技术
- FlumeJava不等同于Apache Flume,这标志着青铜时代的终结,同时标志着蒸汽机时代的开始
- Google FlumeJava对应的开源版本为 Apache Beam
MapReduce的缺点
高昂的维护成本
- 使用MapReduce,需要严格地遵循分步的Map和Reduce步骤
- 当构造复杂的处理架构时,往往需要 协调 多个Map和多个Reduce任务
- 但是每一步的MapReduce都有可能出错,为了处理这些异常,很多人开始设计自己的 协调系统 ,大大 增加整个系统的复杂度
- 真实的商业MapReduce场景 极端复杂
- 在应用过程中,每个MapReduce任务都可能出错,都需要重试和异常处理的机制
- 而协调这些子MapReduce的任务往往需要与业务逻辑 紧密耦合 的状态机
时间性能差
- MapReduce性能优化配置非常复杂,Google关于MapReduce的性能优化手册有500多页
- Google曾在2007年到2012年做过对1PB数据的大规模 排序 实验,用来测试MapReduce的性能
- 2007年为12小时,2012年为0.5小时,Google花了5年的时间才不断优化了一个MapReduce流程的效率
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:- 4 万字全面掌握数据库、数据仓库、数据集市、数据湖、数据中台
- 数据映射如何支持数据转换和数据集成?
- 大数据产品经理必备的数据挖掘知识概述(一)认识数据之数据可视化
- 避免“数据湖”成为“数据沼泽”,流动的“数据河”是关键
- Oracle数据库查询重复数据及删除重复数据方法
- Redis数据持久化、数据备份、数据的故障恢复
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
浪潮之巅(第三版)(上下册)
吴军 / 人民邮电出版社 / 2016-5 / 99.00元
一个企业的发展与崛起,绝非只是空有领导强人即可达成。任何的决策、同期的商业环境,都在都影响着企业的兴衰。《浪潮之巅》不只是一本历史书,除了讲述科技顶尖企业的发展规律,对于华尔街如何左右科技公司,以及金融风暴对科技产业的冲击,也多有着墨。此外,这本书也着力讲述很多尚在普及 或将要发生的,比如微博和云计算,以及对下一代互联网科技产业浪潮的判断和预测。因为在极度商业化的今天,科技的进步和商机是分不开的。......一起来看看 《浪潮之巅(第三版)(上下册)》 这本书的介绍吧!