大数据 -- MapReduce

栏目: 编程工具 · 发布时间: 6年前

大数据 -- MapReduce

石器时代

石器时代：MapReduce诞生之前的时期
数据的大规模处理问题早已存在，但数据的大规模处理技术还处于彷徨阶段
- 每个公司或个人都可能有自己的一套工具处理数据，但没有提炼抽象出一个系统的方法

青铜时代

2003年，MapReduce的诞生标志了超大规模数据处理的第一次革命
论文：《MapReduce: Simplified Data Processing on Large Clusters》
- Jeff Dean和Sanjay Ghemawat从纷繁复杂的业务逻辑中，抽象出通用的编程模型：Map和Reduce
后来的Hadoop是对GFS、BigTable、MapReduce的开源实现

蒸汽机时代

从2016年开始，Google在新员工的培训中把MapReduce替换成内部称为 FlumeJava 的数据处理技术
FlumeJava不等同于Apache Flume，这标志着青铜时代的终结，同时标志着蒸汽机时代的开始
Google FlumeJava对应的开源版本为 Apache Beam

MapReduce的缺点

高昂的维护成本

使用MapReduce，需要严格地遵循分步的Map和Reduce步骤
当构造复杂的处理架构时，往往需要协调多个Map和多个Reduce任务
但是每一步的MapReduce都有可能出错，为了处理这些异常，很多人开始设计自己的 协调系统 ，大大 增加整个系统的复杂度
真实的商业MapReduce场景 极端复杂
- 在应用过程中，每个MapReduce任务都可能出错，都需要重试和异常处理的机制
- 而协调这些子MapReduce的任务往往需要与业务逻辑 紧密耦合 的状态机

时间性能差

MapReduce性能优化配置非常复杂，Google关于MapReduce的性能优化手册有500多页
Google曾在2007年到2012年做过对1PB数据的大规模排序实验，用来测试MapReduce的性能
- 2007年为12小时，2012年为0.5小时，Google花了5年的时间才不断优化了一个MapReduce流程的效率

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

数据结构与算法(Java语言版)

数据结构与算法(Java语言版)

(美) Adam Drozdek著;周翔 / 机械工业出版社 / 2003-07-01 / 49.50元

数据结构与算法：Java语言版，ISBN：9787111119029，作者：（美）Adam Drozdek著；周翔[等]译；周翔译一起来看看《数据结构与算法(Java语言版)》这本书的介绍吧!

JSON 在线解析

JSON 在线解析

在线 JSON 格式化工具

MD5 加密

MD5 加密

MD5 加密工具

Markdown 在线编辑器

Markdown 在线编辑器

Markdown 在线编辑器

版权所有，保留一切权利！© 2018-2026 码农网粤ICP备17054400号-3