智能运维的几个核心价值,该从这几个方面去看?
发布时间:2018-12-17 15:29:03 所属栏目:教程 来源:中国IDC圈
导读:晋江门户网(http://www.ijinjiang.cn)观点对做数据中心运维的人来讲,我们重要的是提高对系统的感知能力,降低故障的持续时间,很多业务都是移动化、互联网化,我们有的时候也学互联网公司做一些促销。我们平时系统的交易量是很低的,每天几万笔交易,但
晋江门户网(http://www.ijinjiang.cn)观点对做数据中心运维的人来讲,我们重要的是提高对系统的感知能力,降低故障的持续时间,很多业务都是移动化、互联网化,我们有的时候也学互联网公司做一些促销。我们平时系统的交易量是很低的,每天几万笔交易,但是促销活动来了就对运维挑战很大,如果做了预测之后就可以感知到异常,可以提前感知这个事情,再有是降低故障的持续时间。银保监会的底线是30分钟之内一定要恢复服务,我们提的目标是10分钟之内故障定位,10分钟故障解决,这样才能满足半个小时之内把问题解决掉的目标,这是对运维来讲。对科技来讲,对科技价值来讲,提高了系统可用性和成本节约,集中式系统已经达到极致之后,垂直扩展是很难的,通过分布式架构可以容纳10亿以上的账处理,交易量也可以大幅度的增加,响应时间得到持续的降低,可以到50毫秒,也是体现科技的价值。从业务价值来讲,系统性能提升了,稳定度提高了,做很多秒杀,做促销的时候,系统能够支撑得住,对用户体验来讲就是好的提升。
民生银行在里面做了一些探索跟实践。在做智能运维的时候发现有很多挑战,原来建设IT管理系统的时候也是做统一的规划,包括监控系统,包括流程系统,但是做智能运维,想把运维的数据打通,能够用的数据获得一些动态的信息,发现数据还是比较分散,结构还是非常多样化,引入了数据治理,把我们的数据做标准化。再有是技术挑战,包括自动驾驶,包括语音识别,发展得还是比较好的,但是对运维场景来讲,标准化程度没有那么高,场景非常复杂,对于研发来讲挑战就很大。举个例子,做故障预测,有监督学习的时候就需要样本,一年真正对业务产生影响的可能就是10个、20个事件。数据量大了之后怎么进行实时的计算,需要有大的计算机群来支撑这个计算,这样才可以克服这方面的挑战。第三是人才和组织的挑战,民生银行还是传统架构的技术人才,包括组织架构,有网络管理人员,有存储管理人员,有系统管理人员,有应用管理人员,我们要做智能运维这件事情需要的算法人才是没有的,这对我们的挑战很大。
要解决这些挑战怎么去做?我们也做了一些思考,一,智能运维本身还处于初级发展阶段,现在还没有成熟,我们想的第一个就是场景驱动,重点解决运维当中的痛点问题,可能有一个痛点问题让我们觉得头疼,就会有动力去解决这个问题,我们就做这样的场景,要做场景服务。第二点,有了场景之后,数据怎么来?怎么去做加工?我们提到运维数据中台,这两年中台的概念特别火,我们搞了运维数据中台,之前已经建立了比较完善的工具,我们需要中台系统能够把数据进行收集,存储,整理起来,变成一个标准化的数据体系。另外,我们把一些标准的算法放到中台上去。第三,需要组建一些敏捷团队,首先要有懂运维的业务,得知道运维业务是怎么做的,还要懂数据,懂算法,还得懂开发,你要落地,说了半天最后人家等着用,发现三个月啥事都没有,这个事就凉了,所以就需要快速交付,我们要建立虚拟化的敏捷团队来解决这样的问题。
数据治理,我们搭了数据平台之后,上面是大家都在做的一些事情,其实我们在建立数据这块,原来数据中心都是标准化的,建立了几年成效也不算太好,究其原因还是消费场景太少,用得不够多,做数据治理的时候还是从需求驱动,拉动的方式,需要什么样的数据我给你加工什么样的数据,当然也有标准化的数据,我们做了数据建模,标准层按照标准做了28种计算模型,把有些数据按照这个体系建了四大体系,比如运维工单的数据,比如监控数据,性能数据,这个类别是比较相近的,分成四个体系。在运维数据中台上,对数据进行了一定的加工,便于做数据应用的时候可以很方便的获取标准化的数据。
再看看我们这个组织,这是我们现在的组织情况,下面是支撑的工具平台,我们去做这个东西的时候会发现在数据中心内部,同样存在着数据管理的问题。各个中心之间还有一些隔阂,信息的交流,透明程度,还远远没有那么高,确实存在这样的问题。我们要做智能运维就要打通,刚才讲了建立虚拟团队,按照项目的方式去组织虚拟团队,智能运维的项目,在数据中心层面下有领导挂帅,驱动数据中心的人一起参与进来,组织上的支撑也是很关键的,我们对数据模型算法和算力方面提供支持。我们还有运维工程师,运维开发工程师,还培养智能运维工程师,做算法开发。结合上面的智能运维的产品,结合我们的痛点和需求,我们做了几块,一个是智能故障的发现与分析,还有智能运维机器人,还有对运营数据的支持。我们发现人才很缺,我们和清华大学智能运维实验室进行合作,他们给我们提供一些培训,对算法上也有合作的开发。通过这个过程,我们发现效果也不错,一方面他们有他们的成果,但是他们缺场景,可以跟我们的场景结合起来。通过培训我们自己的人也掌握了这个能力,可以自己来做开发了,自己做算法开发。
这是我们大概的平台架构,现在数据中心目前都是双态的结构,有不同的工具,中间的数据运维平台解决数据模型,算法和算力的问题,同时数据中台对上提供服务接口,还有展示层去做开发。平台搭建大多数是基于开源的技术,也是契合国家要求的自主可控,我们底层的大数据平台是一起的。 (编辑:西安站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |