Apache Hadoop(4)---MapReduce框架背后的事情

栏目: 编程工具 · 发布时间: 6年前

内容简介：MapReduce作为Hadoop的编程框架，把数据的操作抽象成map和reduce操作，简化了大数据编程的复杂度，但是MapReduce是如何执行的呢？对于每一个MapReduce，都对应着一个map，一个reduce（可能没有），以及一个job描述，当提交这个任务时，Hadoop框架会解析这个job，然后按照描述来启动mapper、reducer，并且将输入文件灌入mapper，同时接收mapper输出，处理之后再喂给reducer，对reducer的结果处理之后就得到了最终结果。

MapReduce作为Hadoop的编程框架，把数据的操作抽象成map和reduce操作，简化了大数据编程的复杂度，但是MapReduce是如何执行的呢？

对于每一个MapReduce，都对应着一个map，一个reduce（可能没有），以及一个job描述，当提交这个任务时，Hadoop框架会解析这个job，然后按照描述来启动mapper、reducer，并且将输入文件灌入mapper，同时接收mapper输出，处理之后再喂给reducer，对reducer的结果处理之后就得到了最终结果。

Apache Hadoop(4)---MapReduce框架背后的事情

Mapper

默认情况下，对于HDFS数据文件的每一个block，Hadoop都会启动一个mapper，也就是说一个mapper负责处理一个block，这样在资源充足的情况下能大大加快处理速度。HDFS的文件格式有很多，当它是默认的文本格式时，框架会读取这个block并且循环调用mapper的map方法，每次喂入一行，KV键值对分别是偏移量和文本内容。

对于接收到的内容，mapper在处理之后通过context输出新的若干键值对，框架会接收这些键值对。为了减少磁盘读写，这些输出首先被存储在缓冲区中，当缓冲区达到一定阈值之后开始将缓冲区内容写入到磁盘中。对于这些内容，首先按照后续处理的reducer不同划分成一个个小的分片（根据哈希等策略），然后针对每一个分片做一个内存内排序，如果MapReduce指定了combiner，再在分片上做一次combine操作，然后将结果合并后按照round-robin策略写入到不同的磁盘中，当mapper处理完所有数据后，再次合并所有的小文件，形成一个大的有序且分区的大文件。如果小文件的数量超过一定阈值，会在新的文件上再做一次combine操作，进一步减少文件大小，减少后续reducer的复制通信量以及加快硬盘读写。

Reducer

默认情况下，每个MapReduce只有一个reducer，但是可以根据需求，设置多个reducer。在每个reducer启动初期，会去每一个机器（application manager存放着所有该任务中的mapper和机器）上通过http协议拉取属于自己的那份数据，然后对于所有的有序文件集做排序和合并操作，形成一个新的大文件。需要注意的是，如果文件大小较少，则会直接进行内存内排序跟合并，而不会落盘。同样，如果文件数很多，会多次执行combine操作。

Apache Hadoop(4)---MapReduce框架背后的事情

然后框架按照键组织所有的键值对，每次喂入一个键以及所有的值，当reducer处理并生成新的键值对后，对结果做排序操作，然后写入HDFS相应目录。

当所有的reducer执行完毕之后，做收尾工作，删除mapper和reducer节点上生成的中间数据并释放资源。

由于不同机器性能不同等原因，不同的mapper结束时间不同，为了加快处理速度，reducer不会等到所有mapper处理完毕之后才开始启动，而是当一定比例的mapper执行结束后提前启动，然后拉取数据合并，这样等剩下的mapper结束之后能尽快的拉取剩下的数据，开始reduce操作。

容错

大数据中，一个必须要考虑的因素就是容错，在MapReduce中，如果一个mapper在执行时出现故障，只需要重新处理相应的block即可；可如果reducer出错，它就需要重新拉取相应mapper的结果，为了避免这种情况下带来的大量mapper重新处理，mapper的处理结果会等到整个任务完成之后才统一删除。

以上所述就是小编给大家介绍的《Apache Hadoop(4)---MapReduce框架背后的事情》，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对码农网的支持！

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

互联网时代

《互联网时代》主创团队 / 北京联合出版公司 / 2015-2-1 / 49.80元

【编辑推荐】 1、人类正进入一个充满未知的时代，《互联网时代》不仅告诉你现在，还告诉你未来。 2、中央电视台《互联网时代》是全球第一部全面、系统、深入、客观解析互联网的纪录片，同名图书容量巨大，除纪录片内容，更包含大量尚未播出的内容。 3、中央电视台继《大国崛起》《公司的力量》《华尔街》等之后的又一重磅力作。10个摄影组，制作近3年，在全球14个国家和地区拍摄，6位“互联网之父”......一起来看看《互联网时代》这本书的介绍吧!

码农工具

SHA 加密

SHA 加密工具

HEX CMYK 转换工具

HEX CMYK 互转工具