不懂程序猿的世界 尤其是支付宝技术团队的程序猿
专栏:科技资讯
发布日期:2018-12-21
阅读量:4702
本以为程序猿已经是世界上最奇怪的工种,格子衬衫、随身带键盘、背双肩包、还秃顶,没想到,还有一种有“自虐”倾向的程序猿物种——支付宝技术团队。 ![]() 对于他们而言,分成红蓝两队阵营,通过仿真环境模拟天灾人祸,上演“矛盾”之战,比网吧团战开黑来的更刺激。 从2016年开始,支付宝内部建立“红蓝对抗”机制,由蓝军寻找系统应用及架构上的脆弱点,牵引红军升级防控能力,每周“突袭”外加一年两大考,要求技术小哥哥们必须时刻绷紧神经。通过这种全栈级别的大型技术攻防演练,来检验并提升技术团队应急处理能力和风险意识,以进一步把控技术风险。 ![]() 在这场技术攻防演练中,支付宝技术团队的程序猿们“玩”得不亦乐乎。蓝军成立两个月后,便推出了字节码级别的故障注入系统Awatch,实时侵入运行中的业务系统。同时,红军也积极建设防控体系,针对性地推出实时核对平台,做到稳定的分钟级核对异常发现能力。另外,各个业务域也研发了相应的核对系统,共同建立起稳固防线。 但由于大部分的故障场景主要是各个业务方提供的,更深层的隐患仍未被发现,蓝军意识到必须得自己主动去“找事儿”,于是在今年3月推出故障场景挖掘平台,最高能够在5分钟内产生500+的故障场景。 ![]() 持续应急压力下,红军的程序猿们开展“故障自愈”架构体系升级及能力建设,配合蓝军研发了“无损”攻防体系以及相匹配的度量平台,让这场“攻防游戏”的结果数据可视化。 目前,对抗赛已经成为常态,保持每周200+故障场景的节奏运作。蓝军实时、随地、无差别地攻击,确实让红军的程序猿们费了不少心思。有趣的是,红军会在演练前举办拜关公的仪式,以求关公庇佑,还曾在一次周末突袭中感概“这次预期外的故障攻击是最真实的应急锻炼!” ![]() 从最开始简单设立技术质量团队和运维团队的青铜时代,到组建SRE团队(Site Reliability Engineer)的钻石时代,支付宝系统的稳定性逐步进阶,蚂蚁金服的技术风险也迅速发展,红蓝军对抗赛起到了关键性作用。 未来,蚂蚁金服SRE团队希望在技术风险防控方面做到5个9的能力,即99.999%,且任意故障在5分钟之内解决,并让技术风险防控具备智能特性,减少人工干预。 ![]() 经过三年实践,全栈级技术攻防演练已经沉淀出一整套成熟的风险防控体系。现在正式对外开放,包括容灾应急平台、全链路压测、资金安全监控、变更管控、巡检平台以及黑屏运维管控等产品,已在蚂蚁金融科技官网(tech.antfin.com)逐步上线。 说点什么
发表
最新评论
|
点击开启品牌新篇章