互联网企业安全运维实践
而对于安全来说,需要想到,如果没有采取这个措施,可能存在怎样的安全风险,为了降低风险,采取了一定的行动,并且要确保这个行动是有效的、而且一定要真实的执行。 ![]() IT系统会有各种各样的变更,如发布、升级、割接、改造等。变更是最容易引发系统故障的操作,为了降低变更对系统的影响,我们推进三思而行的三步工作法。做变更之前先问自己三个问题,首先我是这项工作的合适人选吗?其次我有能力执行这个任务吗?最后我能控制整个变更吗? 当三个问题得到的答案是肯定的,我再去申请执行这个变更。如果任何问题的答案有迟疑,会和自己的主管协商,制定最佳方案,包括变更失败的回退计划;通过这一举措,大大降低了变更造成的业务影响。 ![]() 研发的同事通常关注的是HTTP xxx返回值相关问题、延迟、扩展性、代码重用、Deadline、KPI、需求变更、框架、形式源、功能如何实现、以及代码质量等问题,最主要关注代码有没有bug;运维的同事通常关注HTTP 4xx及5xx错误、性能、可靠性、对阀值进行预警、监控图断崖、是否出现异常,最关心别出故障; 研发和运维的同事对安全的理解会有不同,但大体上对安全的理解包括DDoS攻击、病毒木马、堡垒机、数据脱敏、拖库和数据泄露,只能理解和自己工作关系比较大的那个部分。而安全的同事关注的是1-7层上我的防护措施会不会被绕过,然后就是各种漏洞,开源框架的、编程语言的,代码里的、逻辑上存在的各种安全漏洞公交站,传输过种中以及存储过程中的漏洞,bug的修复,更高级的漏洞利用方式。找出各种高、中、低危漏洞。除此之外还在时刻关注无线渗透、弱口令、0day、彩虹表、各种马、注入、后门。这里就不一一列举了,反正就是能黑进入能拿数据,能偷钱的技术都需要了解和防范,弦崩的还是很紧的 。 其它非技术部门的同事对安全的关注仅仅是看看热点,谁家出什么事了,旁观者心态。视野的不同决定了在安全这件工作上采取行动的不同。 ![]() 在安全运维的过程中,有时不得不去做一些高危操作,就像给飞行中的飞机更换故障发动机,因为站点业务是7*24服务的,不可能或很少拿到停机操作窗口。前面已经说过,做变更有一套方法规避风险,包括参与变更人员、厂商和我们工作师的配合。但总有疏漏的时候,有一次我们更换防火墙引擎故障,结果导致防火墙双活,业务中断约10分钟。后来复盘故障时领导也民觉得这类操作的确很危险,即使再小心,也是十分危险的 。所以就设定了Outage Window操作,高危操作放在这个窗口内,订单损失是不计入ATP监控的,并没有人会因此滥用这个窗口。 ![]() 关于漏洞 (编辑:西安站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |