加入收藏 | 设为首页 | 会员中心 | 我要投稿西安站长网（https://www.029zz.com.cn/）- 科技、建站、经验、云计算、5G、大数据,站长网!

当前位置：首页 > 教程 > 正文

一篇运维老司机的大数据平台监控宝典（1）-联通大数据集群平台监控体系进程详解

发布时间：2019-05-17 17:24:50 所属栏目：教程来源：中国联通大数据

导读：副标题#e# 如果你是一个经验丰富的运维开发人员，那么你一定知道ganglia、nagios、zabbix、elasticsearch、grafana等组件。这些开源组件都有着深厚的发展背景及功能价值，但需要合理搭配选择，如何配比资源从而达到性能的最优，这里就体现了运维人的深厚功

平台监控项种类繁多，有hdfs、yarn、zookeeper、kafka、storm、spark、hbase等平台服务。每个服务下有多种角色类别，如hdfs服务中包括Namenode、Datenode、Failover Controller、JournalNode 。每个角色类别下又有多个实例。如此产生的监控指标实例达几十万个。目前联通大数据使用的CDH版本大数据平台，基础监控指标全面多样。根据现状，平台层面我们主要配置比较关键的一些监控项。

集群yarn队列资源占用多维画像：帮助平台管理人员合理评估个队列资源使用情况，快速做出适当调整。

一篇运维老司机的大数据平台监控宝典（1）-联通大数据集群平台监控体系进程详解

zeeplin操作日志：zeepline并没有相关的可视化审计日志，通过实时的获取zeeplin操作日志来展现zeeplin操作，方便运维人员审计。

一篇运维老司机的大数据平台监控宝典（1）-联通大数据集群平台监控体系进程详解

hdfs各目录文件数及存储多维画像：实时统计各业务用户的数据目录存储，便于分析hdfs存储增量过大的目录。

一篇运维老司机的大数据平台监控宝典（1）-联通大数据集群平台监控体系进程详解

集群namenode RPC 实时多维画像：当hadoop集群节点数达到千台左右时，集群业务对于yarn队列资源使用达到百分之八十以上，且集群写多读少，很容易造成namenode-rpc等待队列深度过大，造成namenode-rpc延迟，这将会严重影响集群整体业务的运行。半小时能跑完的任务，可能会跑数个小时。根本原因还是集群承载业务数量过多，并且业务逻辑设计不合理，造成yarn任务执行过程频繁操作hdfs文件系统，产生了大量的rpc操作。更底层的，每个dn节点的磁盘负载也会过高，造成数据读写io超时。

通过提取namenode日志、hdfs审计日志，多维度分析，可通过hdfs目录和hdfs操作类型两个方面确认rpc操作过多的业务。并且根据具体是哪种类型的操作过多，来分析业务逻辑是否合理来进行业务优化。例如有某大数据业务的逻辑是每秒往hdfs目录写入上千个文件，并且每秒遍历下hdfs目录。但触发加工是十分钟触发一次，因此该业务产生了大量的rpc操作，严重影响到集群性能，后调优至5分钟遍历次hdfs目录，集群性能得到极大优化。

一篇运维老司机的大数据平台监控宝典（1）-联通大数据集群平台监控体系进程详解

一篇运维老司机的大数据平台监控宝典（1）-联通大数据集群平台监控体系进程详解

(3) 日常生产监控项

生产报表：由于联通大数据平台承载业务体量很大，通过后台查询繁琐，而通过可视化展示能方便生产运维人员快速了解日生产情况，定位生产延迟原因。

一篇运维老司机的大数据平台监控宝典（1）-联通大数据集群平台监控体系进程详解

一篇运维老司机的大数据平台监控宝典（1）-联通大数据集群平台监控体系进程详解

结语：关于平台监控的内容在本文中就先介绍到这里，在下一篇中，笔者将针对平台告警做出经验分享，介绍如何建立统一采集模板、告警各集群的全量监控指标、进行分组告警并自动化恢复等内容。

【本文是51CTO专栏机构中国联通大数据的原创文章，微信公众号“中国联通大数据( id: unibigdata)”】

戳这里，看该作者更多好文

（编辑：西安站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3

相关内容

推荐文章

站长推荐

热点阅读