《财经》专稿|支付宝大面积瘫痪 灾备能力引发争议

《财经》记者 由曦 谢丽容 宋玮 /文  

2015年05月28日 08:56  

本文2661字,约4分钟

支付宝底层的基础云平台技术,不仅支撑着支付宝,也是浙江网商银行的基础,未来还计划输出给其他金融机构。因此,系统的安全保障能力更需高标准、严要求。

对于蚂蚁金服和阿里巴巴来说,2015年5月27日绝对是值得记住的一天,就在银监会网站于当日下午发布关于浙江网商银行的开业批复的同时,支付宝的系统在下午5点左右出现了故障,这导致全国部分用户支付宝钱包的功能无法使用,出现了“网络繁忙、请稍后再试”的提示语。

对此,支付宝钱包官方微博在当天晚间6:05解释称,此次事故的是“由于杭州市萧山区某地光纤被挖断”而“造成目前少部分用户无法使用支付宝”,支付宝表示,运营商正在抢修,而支付宝的工程师正在紧急将用户请求切换至其他机房。支付宝还称,用户的资金安全并不会因此而受到影响,而交易数据不同步的情况也会在修复后恢复同步。

从下午5时许到晚间7时左右,系统的故障在持续了两个小时左右后被排除。拥有超过4万亿年交易总额的支付宝是中国第一大第三方交易平台,约占中国整体社会消费金额的六分之一。由于支付宝的在金融领域的系统重要性程度,以及其独特的基于云计算的IT技术架构,此次故障受到各方关注。

对于导致此次事件的原因,蚂蚁金服方面的解释并未获得金融和互联网界的广泛认同。业界聚焦于这样一个问题,如果按金融机构系统灾备标准衡量的话,即使在出现光缆被挖断的情形,系统的运行也应该正常无误。

一位资深电信领域专家表示,现在网络架构多中心制决定了,任何一个节点出现问题,它的任务将由其他中心来承接。而支付宝肯定是多节点多中心制。任何一点断服,都会由其他节点来进行服务。而且支付宝的路由非常多,其系统也不可能只接一家运营商,即便是只接一家,肯定也是多路由接入。

另一位传统金融机构的系统安全领域专家称,从理论上讲,支付宝应该全部是互联网出口,也就是说,所有的入口和出口都是基于互联网通信或者电信的节点来实现数据的交换和通信,关键节点出现断电或者光纤挖断的情况,理论上应该有备份的接口,就相当于可以放弃出现故障的线路,通过其他的专线可以继续保证运行。他因此推断断的电缆应该是离主机房比较近的一根线。

简而言之,在光缆被挖的情况下,整个系统的切换应该可以更加顺畅。

在我国金融领域,金融机构涉及客户资金的重要系统都有灾备系统。比如,目前国有大型银行基本上是采用“两地三中心”的模式,即同城除了有一个灾备中心以外,异地也有一个灾备中心,这样就可以应对战争、重大灾难等极端情形。因此,当一个机房出问题时,系统会切到同城或者异地的灾备中心。

汤森路透的金融网络网络号称世界最大的, 它处理着全球实时的金融数据,其系统的建设要求就是在自然灾害或战争的时候也不能宕机,两条不同电信公司的光缆和不同电力公司的电缆分别从机房的两个方向浸入,同一个机房的所有系统实时双备份,并建立异地(巴黎、日内瓦)机房同时实时处理相同的数据。

一位国有大型银行的专业人士分析,通常来说,如果是同城灾备,客户根本感受不到延迟,如果是异地,系统的切换也会在较短的时间内完成。但无论同城还是异地,两个小时的系统切换的时间对于支付宝这样一个金融支付系统来说显然太长。

这一说法得到多位接受《财经》记者采访的电信技术人士的支持。中国电信的一位技术高层人士分析,服务故障切换机制应该是自动的,根据一定的事先设置的策略,无需人为干预,人工可以在服务切换后,再重新定义流量疏导方式。

一位蚂蚁金服的高管解释了切换时间较长的原因。他表示,大流量网站实时切换涉及资金时有难度。切换时的数据要确保不丢不错,所以放缓速度是为了安全,对此,他们也在内部讨论这个选择的利弊,但认为,首先要保证客户资金安全,当然未来仍有优化空间。在这次恢复中,支付宝已发现了可以更快恢复的一些环节,未来出现类似情况有把握更快且更安全的恢复。

而某大型国企网络运维人员则认为,从技术角度看,支付宝此次事故可能是内部应用模块出了问题,未经严格验证的应用被统一升级后,被意外触发到未知状态,导致出现此类问题。

上述运维人员还表示,经他观察,支付宝DBA(数据管理人员)紧急恢复了RPO=10days的完整数据(RPO,Recovery Point Objective,复原点目标,是指当服务恢复后,恢复得来的数据所对应时间点,理想的状态是RPO=0,故障出现立即恢复,但需要极大投入),并不停地进行分段增量数据恢复,历时约2小时余,这就是应用模块的问题。

上述中国电信技术人士则分析认为,出现这种问题的可能性是,支付宝多个数据中心之间的自动流量切换机制出现问题,只能人工介入。还可能是其他三种原因:一是很有可能是支付宝遭到了攻击;二是支付宝的路由配置瘫痪了;三是支付宝的云服务器瘫痪了,亚马逊也出现过这个问题。号称最先进最安全的阿里云系统对自家业务并没支撑好。

就以上相关问题,《财经》记者询问了蚂蚁金服方面,蚂蚁金服回应称,具体的技术分析正在加紧进行,但得出结论判断还需要一段时间。

微妙的是,在蚂蚁金服更早的一份媒体回应中称,之所以花费较长时间,是在流量向支付宝位于深圳的数据中心迁移的时候,切换系统也受到了光纤断裂的影响,所以切换上花费了一些时间。这与“技术上他们可以做到更快恢复,之所以较慢是为了确保不丢数据”这一说法并不一致。

金融领域的系统安全一直是监管机构的重点。2013年6月,工行在系统升级的时候也曾出现全国大面积瘫痪的情况,根据当时媒体的报道,全国多地用户在登陆网银系统时均出现了“登陆失败,因系统原因暂无法获取当前交易结果”的提示,但是整个问题在1-2个小时内处理掉了,其系统的回退也很快。即便如此,这次事故也被监管机构当成案例来反复“敲打”各家银行重视系统安全。

业界人士认为,与工行一样,支付宝的网络也具有系统重要性。更重要的是,支付宝底层的基础云平台技术,不仅支撑着支付宝,也是浙江网商银行的基础,未来还计划输出给其他金融机构。因此,系统的安全保障能力更需高标准、严要求。

随着云计算和大数据的逐步普及,以及人们在互联网应用越来越重的资产托付,IT技术领域普遍呼吁互联网公司改变“尽力而为”的服务承诺和网络架构,向传统电信、IT领域高达99.999%的“5个9”安全级别靠拢。

一位资深的业内专家表示,此次故障事件,给了支付宝反思,但新兴事物就是在这种经验的积累中不断成长,公众和媒体对此也应有一定的宽容度。这就像跳水,起跳不错,空中动作也还行,但入水压水花不够好,未来还有改进空间。