阿里技术架构内部总结：HDFS监控落地的思考

发布时间：2019-11-09 01:21:30 所属栏目：建站来源：IT技术管理那些事儿

导读：副标题#e# Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。 HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。在大数据生态圈中，HDFS是最重要的底层分布式文件系统，它的稳定性关乎整个生态

与堆内存使用率配合使用。每个文件系统对象(包括文件、目录、Block数量)至少占有150字节堆内存，根据此，可以粗略预估出一个Namenode可以保存多少文件。根据文件与块数量之间的关系，也可以对块大小做一定优化。

下线实例数

采集项：NumDecommissioningDataNodes

HDFS集群规模较大时，实时掌握健康实例说，定期修复故障节点并及时上线，可以为公司节省一定成本。

5)其他

除上述主要指标外，服务器、进程JVM、依赖服务(Zookeeper、DNS)等通用监控策略也需添加。

四、HDFS监控落地

Grafana仪表盘展现：主要用于服务巡检、故障定位(说明：Grafana官方提供的HDFS监控模板，数据指标相对较少)。

HDFS部分集群Grafana仪表盘

ELK-Hadoop：主要用于全局日志检索，以及错误日志关键字监控。

ES中搜索HDFS集群日志

日志服务搜索HDFS集群日志

Hue、HDFS UI：主要用于HDFS问题排查与日常维护。

五、HDFS案例

案例1：

DNS产生脏数据，导致Namenode HA故障。

发现方式：功能监控、SLA指标异常
故障原因：DNS服务器产生脏数据，致使Namenode主机名出错，在HA切换时，因找到错误主机而失败
优化建议：DNS作为最基础服务，务必保证其数据正确与稳定，在一定规模情况下，切忌使用修改/etc/hosts方式来解决主机名问题，如果没有高可用的内部DNS服务，建议使用DNSMasq来搭建一套DNS服务器

案例2：

机架分组不合理，导致HDFS无法写入。

（编辑：西安站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!