考拉上“云”的431天:经历了怎样的“脱胎换骨”?
阿里早已尝试过“同城双活”、“异地双活”、甚至“异地多活”,在阿里云原生产品天然多AZ容灾能力下,考拉在一个月内就完成了“同城双活”的能力建设,具备了多AZ容灾能力。 “工作被‘抢’走了,我还挺高兴的。”这是考拉运维工程师李斌的肺腑之言。 3.8女神节后,考拉用户量大增,却苦了运维的同学。 一直以来,考拉使用自建的ZooKeeper(分布式协调服务),一旦负载增大,某台服务器宕机后,就会自动选举新的服务器,这个过程中无法对外提供服务。 宕机伴随的警报声,可能发生在任何时间节点,李彬不止一次在凌晨恢复数据,而且钉钉群里还有一线业务员“刷屏”式的催促。
伏见发现阿里云有一套MSE(微服务引擎),相当一个全托管平台,找阿里云问了两句,对方工程师就拍着胸脯说,“没问题的,以后的运维工作我们都包了。” 阿里云的资源弹性能力和自动化运维技术,预计为考拉每年节省成本近2000万元,同时计算性能提升20%。考拉也不再设立专门的运维团队。 “开箱即用”的云上产品,更像是一种共享经济,而且阿里云这些云产品经过历年双11的打磨,解决过业界最难的问题场景和复杂度。 和阿里云一起吃第一个螃蟹 2019年9月到2020年3月31日,归功于阿里云的成熟产品,“考拉迁云”顺利完成,考拉基础产品负责人玄圈对这一过程的评价是“稳定”,但到了“考拉换树”全面拥抱云原生时,阿里云一些“半定制”产品,却带来了一些新的挑战。
在阿里云的PaaS层系统中,有一个名为ARMS(业务实时监控服务)的中间件,可以通过实时监控系统运行指标,评估系统健康状态。 AMRS最大的优点是改造成本低,一行代码就能接入,原本的多数业务也不需要修改。但是ARMS也是个“考拉定制版”的产品,支持全链路压测,上万级节点体量的考拉,是第一个吃螃蟹的“自己人”。 第一次为伏见做ARMS介绍的人,是阿里云架构师涯海,两人一见如故。 (编辑:西安站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |