石器时代
- 石器时代:MapReduce诞生之前的时期
- 数据的大规模处理问题早已存在,但数据的大规模处理技术还处于彷徨阶段
- 每个公司或个人都可能有自己的一套 工具 处理数据,但没有提炼抽象出一个系统的方法
青铜时代
- 2003年,MapReduce的诞生标志了超大规模数据处理的第一次革命
- 论文:《MapReduce: Simplified Data Processing on Large Clusters》
- Jeff Dean和Sanjay Ghemawat从纷繁复杂的业务逻辑中,抽象出通用的编程模型:Map和Reduce
- 后来的Hadoop是对GFS、BigTable、MapReduce的开源实现
蒸汽机时代
- 从2016年开始,Google在新员工的培训中把MapReduce替换成内部称为 FlumeJava 的数据处理技术
- FlumeJava不等同于Apache Flume,这标志着青铜时代的终结,同时标志着蒸汽机时代的开始
- Google FlumeJava对应的开源版本为 Apache Beam
MapReduce的缺点
高昂的维护成本
- 使用MapReduce,需要严格地遵循分步的Map和Reduce步骤
- 当构造复杂的处理架构时,往往需要 协调 多个Map和多个Reduce任务
- 但是每一步的MapReduce都有可能出错,为了处理这些异常,很多人开始设计自己的 协调系统 ,大大 增加整个系统的复杂度
- 真实的商业MapReduce场景 极端复杂
- 在应用过程中,每个MapReduce任务都可能出错,都需要重试和异常处理的机制
- 而协调这些子MapReduce的任务往往需要与业务逻辑 紧密耦合 的状态机
时间性能差
- MapReduce性能优化配置非常复杂,Google关于MapReduce的性能优化手册有500多页
- Google曾在2007年到2012年做过对1PB数据的大规模 排序 实验,用来测试MapReduce的性能
- 2007年为12小时,2012年为0.5小时,Google花了5年的时间才不断优化了一个MapReduce流程的效率
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:- 4 万字全面掌握数据库、数据仓库、数据集市、数据湖、数据中台
- 数据映射如何支持数据转换和数据集成?
- 大数据产品经理必备的数据挖掘知识概述(一)认识数据之数据可视化
- 避免“数据湖”成为“数据沼泽”,流动的“数据河”是关键
- Oracle数据库查询重复数据及删除重复数据方法
- Redis数据持久化、数据备份、数据的故障恢复
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
区块链革命
[加]唐塔普斯科特(Don Tapscott)、[加]亚力克斯·塔普斯科特(Alex Tapscott) / 中信出版集团股份有限公司 / 2016-9 / 69
(1)国际大腕“数字经济之父”继畅销书《维基经济学》之后再出力作! (2)一本真正全景式描述区块链理论及应用的巨著! (3)苹果共同创始人史蒂夫·沃兹尼亚克、世界经济论坛创始人和论坛主席克劳斯·施瓦布、网景及硅谷安德森·霍洛维茨风险投资公司创始人马克·安德森、麦肯锡董事长兼全球总裁鲍达民、 百事公司首席执行官卢英德、丹·舒尔曼 Paypal公司首席执行官等全球政治界、学术界和商界精英联......一起来看看 《区块链革命》 这本书的介绍吧!