博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Hadoop权威指南--读书笔记
阅读量:6493 次
发布时间:2019-06-24

本文共 391 字,大约阅读时间需要 1 分钟。

第二章 MapReduce简介

一个理想的分片大小往往是一个HDFS块的大小;map任务的执行节点和输入数据的存储节点是同一节点,hadoop的性能达到最佳(数据局部性优化,避免数据网络传输)。
MapReduce流程概括:从文件中读入一行数据,map函数处理,返回键值对;系统对map结果进行排序,如果有多个reducer,map任务会对输出进行分区,为每个reduce任务创建一个分区。如果指定了combiner,map之后会先运行combiner,combiner的结果传递给reducer,combiner可以减少map与reduce之间的数据传输量。reducer首先需要对接收到的数据进行shuffle,之后运行reducer函数返回结果。(具体见2.4的讲解和图)想了解mapreduce代码可以看2.3.2的代码。

具体见

 

第三章 Hadoop分布式文件系统

 具体见

 

转载地址:http://kikyo.baihongyu.com/

你可能感兴趣的文章
NLog的介绍使用
查看>>
Haproxy+Rabbitmq中的问题
查看>>
字符串变量小议
查看>>
232. Implement Queue using Stacks
查看>>
Poj(1469),二分图最大匹配
查看>>
和菜鸟一起学linux之V4L2摄像头应用流程【转】
查看>>
spin_lock、spin_lock_irq、spin_lock_irqsave区别【转】
查看>>
删除 mac 垃圾桶内清除不掉的文件
查看>>
【响应式编程的思维艺术】 (5)Angular中Rxjs的应用示例
查看>>
/bin/bash^M: bad interpreter: No such file or dire
查看>>
python xml rpc
查看>>
Java设置以及获取JavaBean私有属性进阶
查看>>
db2表结构导出导入,数据库备份
查看>>
策略模式
查看>>
第二 周作业总结
查看>>
OrderOnline——项目概述
查看>>
POJ-2739(Water)
查看>>
【转】第三节 UNIX文件系统结构
查看>>
为什么sql里面not in后面的子查询如果有记录为NULL的,主查询就查不到记录
查看>>
Angular7里面实现 debounce search
查看>>