阿里技术架构内部总结:HDFS监控落地的思考
与堆内存使用率配合使用。每个文件系统对象(包括文件、目录、Block数量)至少占有150字节堆内存,根据此,可以粗略预估出一个Namenode可以保存多少文件。根据文件与块数量之间的关系,也可以对块大小做一定优化。 下线实例数 采集项:NumDecommissioningDataNodes HDFS集群规模较大时,实时掌握健康实例说,定期修复故障节点并及时上线,可以为公司节省一定成本。 5)其他 除上述主要指标外,服务器、进程JVM、依赖服务(Zookeeper、DNS)等通用监控策略也需添加。 四、HDFS监控落地 Grafana仪表盘展现:主要用于服务巡检、故障定位(说明:Grafana官方提供的HDFS监控模板,数据指标相对较少)。 ![]() HDFS部分集群Grafana仪表盘 ELK-Hadoop:主要用于全局日志检索,以及错误日志关键字监控。 ![]() ES中搜索HDFS集群日志 ![]() 日志服务搜索HDFS集群日志 Hue、HDFS UI:主要用于HDFS问题排查与日常维护。 五、HDFS案例 案例1: DNS产生脏数据,导致Namenode HA故障。
案例2: 机架分组不合理,导致HDFS无法写入。
(编辑:西安站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |