MapReduce 开发总结

发表于2023-02-10|更新于2023-02-10|Hadoop

|字数总计:354|阅读时长:1分钟|阅读量:

一：输入数据接口：InputFormat

默认使用的实现类是：TextInputFormat
TextInputFormat 的功能逻辑是：一次读一行文本，然后将该行的起始偏移量作为 key，行内容作为 value 返回。
CombineTextInputFormat 可以把多个小文件合并成一个切片处理，提高处理效率。

二：逻辑处理接口：Mapper

用户根据业务需求实现其中三个方法：map() setup() cleanup ()

三：Partitioner 分区

有默认实现 HashPartitioner，逻辑是根据 key 的哈希值和 numReduces 来返回一个分区号；key.hashCode()&Integer.MAXVALUE % numReduces
如果业务上有特别的需求，可以自定义分区。

四：Comparable 排序

当我们用自定义的对象作为 key 来输出时，就必须要实现 WritableComparable 接口，重写其中的 compareTo()方法。
部分排序：对最终输出的每一个文件进行内部排序。
全排序：对所有数据进行排序，通常只有一个 Reduce。
二次排序：排序的条件有两个。

五：Combiner 合并

Combiner 合并可以提高程序执行效率，减少 IO 传输。但是使用时必须不能影响原有的业务处理结果。

六：逻辑处理接口：Reducer

用户根据业务需求实现其中三个方法：reduce() setup() cleanup ()

七：输出数据接口：OutputFormat

用户根据业务需求实现其中三个方法：reduce() setup() cleanup ()
用户还可以自定义 OutputFormat。

文章作者: Rupert-Tears

文章链接: https://tuumest.cn/blog/6e775d30.html/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自爱影客！

相关推荐

数仓项目-概念及架构

Hadoop 数据压缩

MapReduce-ETL数据清洗

MapReduce Join 应用

MapReduce 内核源码解析

MapReduce OutputFormat数据输出

数据库加载中