阿里技术架构内部总结：HDFS监控落地的思考

发布时间：2019-11-09 01:21:30 所属栏目：建站来源：IT技术管理那些事儿

导读：副标题#e# Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。 HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。在大数据生态圈中，HDFS是最重要的底层分布式文件系统，它的稳定性关乎整个生态

慢节点主要特征是，落到该节点上的读、写较平均值差距较大，但给他足够时间，仍然能返回正确结果。通常导致慢节点出现的原因除机器硬件、网络外，对应节点上的负载较大是另一个主要原因。实际监控中，除监控节点上的读写耗时外，节点上的负载也需要重点监控。

根据实际需要，可以灵活调整Datanode汇报时间，或者开启“陈旧节点”(Stale Node)检测，以便Namenode准确识别故障实例。涉及部分配置项：

4)容量

集群总空间、空间使用率

采集项：PercentUsed

HDFS UI花费了很大篇幅来展现存储空间相关指标，足以说明它的重要性。

空间使用率计算包含了处于“下线中”节点空间，这是一个陷阱。如果有节点处于下线状态，但它们代表的空间仍计算在总空间，如果下线节点过多，存在这样“怪象”：集群剩余空间很多，但已无空间可写。

此外，在Datanode空间规划时，要预留一部分空间。HDFS预留空间有可能是其他程序使用，也有可能是文件删除后，但一直被引用，如果“Non DFS Used”一直增大，则需要追查具体原因并优化，可以通过如下参数来设置预留空间：

作为HDFS运维开发人员，需清楚此公式：Configured Capacity = Total Disk Space - Reserved Space = Remaining Space + DFS Used + Non DFS Used。

Namenode堆内存使用率

采集项：

HeapMemoryUsage.used/HeapMemoryUsage.committed

如果将此指标作为HDFS核心指标，也是不为过的。元数据和Block映射关系占据了Namenode大部分堆内存，这也是HDFS不适合存储大量小文件的原因之一。堆内存使用过大，可能会出现Namenode启动慢，潜在FGC风险，因此，堆内存使用情况需重点监控。

实际中，堆内存使用率增加，不可避免，给出有效的几个方案：

尽管这些措施可以在很长时间内，有效降低风险，但提前规划好集群也是很有必要。

数据均衡度

采集项：

HDFS而言，数据存储均衡度，一定程度上决定了它的安全性。实际中，根据各存储实例的空间使用率，来计算这组数据的标准差，用以反馈各实例之间的数据均衡程度。

数据较大情况下，如果进行数据均衡则会比较耗时，尽管通过调整并发度、速度也很难快速的完成数据均衡。针对这种情况，可以尝试优先下线空间已耗尽的实例，之后再扩容的方式来实现均衡的目的。

还有一点需注意，在3.0版本之前，数据均衡只能是节点之间的均衡，不能实现节点内部不同数据盘的均衡。

RPC请求队列的长度

采集项：CallQueueLength(RPC请求队列长度)。

文件数量

采集项：FilesTotal

（编辑：西安站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!