学Hadoop你必须要知道的

发布时间：2019-08-07 04:23:50 所属栏目：教程来源：大数据三十四号

导读：副标题#e# 文章目录: 一、理论知识 1.Hadoop的整体印象 2.Hadoop的优势 3.Hadoop可以做什么 4.Hadoop结构 4.1 Hadoop存储--HDFS 4.2 Hadoop计算--MapReduce 4.3 Hadoop资源管理--YARN 5.Hadoop生态二、Hadoop实际操作本文内容诸多借鉴，在借鉴处会表示出

文件在客户端时会被分块，这里可以看到文件被分为 5 个块，分别是：A、B、C、D、E。同时为了负载均衡，所以每个节点有 3 个块。下面来看看具体步骤：

客户端将要上传的文件按 128M 的大小分块。
客户端向名称节点发送写数据请求。
名称节点记录各个 DataNode 信息，并返回可用的 DataNode 列表。
客户端直接向 DataNode 发送分割后的文件块，发送过程以流式写入。
写入完成后，DataNode 向 NameNode 发送消息，更新元数据。

这里需要注意：

写 1T 文件，需要 3T 的存储，3T 的网络流量。
在执行读或写的过程中，NameNode 和 DataNode 通过 HeartBeat 进行保存通信，确定 DataNode 活着。如果发现 DataNode 死掉了，就将死掉的 DataNode 上的数据，放到其他节点去，读取时，读其他节点。
宕掉一个节点没关系，还有其他节点可以备份;甚至，宕掉某一个机架也没关系;其他机架上也有备份。

4.2 Hadoop计算–MapReduce

MapReduce用于大规模数据集(大于1TB)的并行运算。概念**“Map(映射)”和“Reduce(归纳)”**以及它们的主要思想，都是从函数式编程语言借来的，还有从矢量编程语言借来的特性。

当前的软件实现是指定一个 Map(映射)函数：用来把一组键值对映射成一组新的键值对。指定并发的 Reduce(归纳)函数，用来保证所有映射的键值对中的每一个共享相同的键组，如下图所示。

下面将以 Hadoop 的“Hello World”例程—单词计数来分析MapReduce的逻辑，如下图所示。一般的 MapReduce 程序会经过以下几个过程：输入(Input)、输入分片(Splitting)、Map阶段、Shuffle阶段、Reduce阶段、输出(Final result)。

1.输入就不用说了，数据一般放在 HDFS 上面就可以了，而且文件是被分块的。关于文件块和文件分片的关系，在输入分片中说明。

2.输入分片：在进行 Map 阶段之前，MapReduce 框架会根据输入文件计算输入分片(split)，每个输入分片会对应一个 Map 任务，输入分片往往和 HDFS 的块关系很密切。例如，HDFS 的块的大小是 128M，如果我们输入两个文件，大小分别是 27M、129M，那么 27M 的文件会作为一个输入分片(不足 128M 会被当作一个分片)，而 129MB 则是两个输入分片(129-128=1，不足 128M，所以 1M 也会被当作一个输入分片)，所以，一般来说，一个文件块会对应一个分片。如图 1-7 所示，Splitting 对应下面的三个数据应该理解为三个分片。

（编辑：西安站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

2/5

首页

尾页