大数据处理技术-Hadoop-MapReduce

MapReduce

理解 MapReduce 思想

MapReduce 思想在生活中处处可见。或多或少都曾接触过这种思想。
MapReduce 的思想核心是 “分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想，而不是自己原创。

Map 负责 “分”，即把复杂的任务分解为若干个 “简单的任务” 来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。
Reduce 负责 “合”，即对 map 阶段的结果进行全局汇总。

这两个阶段合起来正是 MapReduce 思想的体现。

还有一个比较形象的语言解释 MapReduce：
我们要数图书馆中的所有书。你数 1 号书架，我数 2 号书架。这就是 Map。
我们人越多，数书就更快。现在我们到一起，把所有人的统计数加在一起。这就是 Reduce。

Hadoop MapReduce 设计构思

MapReduce 是一个分布式运算程序的编程框架，核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在 Hadoop 集群上。
既然是做计算的框架，那么表现形式就是有个输入 input，MapReduce 操作这个输入 input，通过本身定义好的计算模型，得到一个输出 output。
对许多开发者来说，自己完完全全实现一个并行计算程序难度太大，而 MapReduce 就是一种简化并行计算的编程模型，降低了开发并行应用的入门门槛。

Hadoop MapReduce 构思体现在如下的三个方面：

如何对付大数据处理：分而治之

对相互间不具有计算依赖关系的大数据，实现并行最自然的办法就是采取分而治之的策略。
并行计算的第一个重要问题是如何划分计算任务或者计算数据以便对划分的子任务或数据块同时进行计算。
不可分拆的计算任务或相互间有依赖关系的数据无法进行并行计算！

构建抽象模型：Map 和 Reduce

MapReduce 借鉴了函数式语言中的思想，用 Map 和 Reduce 两个函数提供了高层的并行编程抽象模型。
Map: 对一组数据元素进行某种重复式的处理；
Reduce: 对 Map 的中间结果进行某种进一步的结果整理。
MapReduce 中定义了如下的 Map 和 Reduce 两个抽象的编程接口，由用户去编程实现:

map: (k1; v1) → [(k2; v2)]
reduce: (k2; [v2]) → [(k3; v3)]

Map 和 Reduce 为程序员提供了一个清晰的操作接口抽象描述。通过以上两个编程接口，大家可以看出 MapReduce 处理的数据类型是 <key,value> 键值对。

统一构架，隐藏系统层细节

如何提供统一的计算框架，如果没有统一封装底层细节，那么程序员则需要考虑诸如数据存储、划分、分发、结果收集、错误恢复等诸多细节；为此，MapReduce 设计并提供了统一的计算框架，为程序员隐藏了绝大多数系统层面的处理细节。
MapReduce 最大的亮点在于通过抽象模型和计算框架把需要做什么 whatneed to do 与具体怎么做 how to do 分开了，为程序员提供一个抽象和高层的编程接口和框架。程序员仅需要关心其应用层的具体计算问题，仅需编写少量的处理应用本身计算问题的程序代码。如何具体完成这个并行计算任务所相关的诸多系统层细节被隐藏起来，交给计算框架去处理：从分布代码的执行，到大到数千小到单个节点集群的自动调度使用。

MapReduce 框架结构

一个完整的 mapreduce 程序在分布式运行时有三类实例进程：

1、MRAppMaster：负责整个程序的过程调度及状态协调
2、MapTask：负责 map 阶段的整个数据处理流程
3、ReduceTask：负责 reduce 阶段的整个数据处理流程

MapReduce 编程规范

MapReduce 编程模型的总结：
MapReduce 的开发一共有八个步骤其中 map 阶段分为 2 个步骤，shuffle 阶段 4 个步骤，reduce 阶段分为 2 个步骤

Map 阶段 2 个步骤

第一步：设置 inputFormat 类，将我们的数据切分成 key，value 对，输入到第二步
第二步：自定义 map 逻辑，处理我们第一步的输入数据，然后转换成新的 key，value 对进行输出

shuffle 阶段 4 个步骤（可以全部不用管）

第三步：对输出的 key，value 对进行分区
第四步：对不同分区的数据按照相同的 key 进行排序
第五步：对分组后的数据进行规约 (combine 操作)，降低数据的网络拷贝（可选步骤）
第六步：对排序后的额数据进行分组，分组的过程中，将相同 key 的 value 放到一个集合当中

reduce 阶段 2 个步骤

第七步：对多个 map 的任务进行合并，排序，写 reduce 函数自己的逻辑，对输入的 key，value 对进行处理，转换成新的 key，value 对进行输出
第八步：设置 outputformat 将输出的 key，value 对数据进行保存到文件中