加入收藏 | 设为首页 | 会员中心 | 我要投稿 西安站长网 (https://www.029zz.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

一篇运维老司机的大数据平台监控宝典(2)-联通大数据集群平台监控体系详解

发布时间:2019-05-16 11:24:38 所属栏目:教程 来源:中国联通大数据
导读:副标题#e# 在上一篇文章【一篇运维老司机的大数据平台监控宝典(1)】中,我们介绍了目前联通大数据监控平台由Grafana+Influxdb+Prometheus+Alertmanager等组件组成,并且着重详述了以Grafana为核心的图形化展示功能。 本文继续针对运维监控体系的另一重要内

可以用一个业务场景来解释该特点:某大数据集群由于网络问题大面积瘫痪,上百个datanode触发断开告警,如果按照传统监控模式的话,收到的将是上百条的告警短信形成短信轰炸。但如果使用分组特性,Alertmanager会将具有共同属性的告警归为一条发送到接收端,清晰明了。

(2) 抑制

还是用业务场景来解释该特点:某主机上运行了一个mysql实例,若该主机宕机,则会收到多条关于mysql各项监控的告警信息,但如果配置了抑制用法,只要触发该主机的宕机告警,上面mysql所触发的告警便会被抑制掉。

(3) 沉默

举例来说,某主机硬件主板损坏,但厂商反馈要2天后才能更换主板,一般情况下在更换主板前,该警报会一直大量重复发送。如果此时利用沉默功能,在页面上配置沉默选项即可暂停此告警,待修复完成后取消沉默规则即可。

一篇运维老司机的大数据平台监控宝典(2)-联通大数据集群平台监控体系详解

3. 配置

  1. global: 
  2.   resolve_timeout: 5m 
  3. templates: 
  4.   - 'template/*.tmpl'                 
  5. route: 
  6.   group_by: ['cluster'] 
  7.   group_wait: 10s                
  8.   group_interval: 20s                            
  9.   repeat_interval: 30m         
  10.   receiver: 'host'                   
  11.  
  12.   routes: 
  13. ###############example#################### 
  14.   - receiver: 'example' 
  15.     match: 
  16.       cluster: example 
  17.     continue: true 
  18. - name: 'example' 
  19.   webhook_configs: 
  20.   - url: 'http://localhost:8180/dingtalk/ops_dingding/send' 
  21.  
  22. inhibit_rules:                         
  23.   - source_match: 
  24.   - source_match_re: 
  25.     target_match_re: 
  26.            equal: ['ipAddress'] 

四、钉钉-最终告警接收查阅

(编辑:西安站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读