案例 | 一份令人警醒的网络重大故障报告
2018年12月6日,对于日本运营商软银,简直是噩梦般的一天。下午13点39分,软银东日本和西日本两大2018白菜自助领彩金机房的18台4G核心网网元突发故障,造成全网大量用户无法正常通信。
- 作者:通信来源:网优雇佣军|2018-12-28 10:31
2018年12月6日,对于日本运营商软银,简直是噩梦般的一天。
下午13点39分,软银东日本和西日本两大2018白菜自助领彩金机房的18台4G核心网网元突发故障,造成全网大量用户无法正常通信。
软银被这突如其来的大故障惊呆了,从CTO到工程师,上上下下忙成一团,整整花了近两个小时才定位出故障原因,直到下午18点04分才恢复故障。
本次故障历时4小时25分,共计造成约3060万软银用户无法正常通信,是日本通信史上一次罕见的重大通信事故。
事故发生后,软银高层向用户公开道歉,并承诺以后将加强设备备份管理,严防事故再次发生。
由于故障发生在白天,影响范围广,对软银造成了极大的负面影响,股票大跌,5天内超过1万户用户解约。
估计连日本总务省也惊呆了,直到20天后,也就是今天,才官方公布确认“收到软银提交的严重事故报告”。
以下内容来自软银的故障报告…
概要
发生时间:
2018年12月6日 13:39至18:04(4小时25分钟)
影响内容:
•4G LTE移动电话无法进行语音通话和数据通信。
•部分LTE 固话和家庭Wi-Fi无法正常使用
•由于4G网络故障,导致3G网络拥塞
影响范围:
全国(约3060万线用户)
故障原因:
4G核心网设备(MME)自助领彩金的白菜网缺陷导致。
故障原因分析
故障具体原因为核心网网元MME(移动管理实体),即4G分组交换设备的数字证书(TSL证书)过期导致。
TLS(Transport Layer Security,传输层安全)是为网络通信提供安全及数据完整性的一种安全协议。
软银解释到,他们在东日本和西日本两大2018白菜自助领彩金机房合计部署了18台分组交换设备,这些设备都是按照远期需求配置,有足够的负荷冗余量,目前仅使用了30%-40%的负荷。
同时,18台设备相互备份,且均为池化部署,这意味着即使任何一台甚至多台设备发生故障都不会影响服务正常提供。
但是,数字证书过期这种事就不一样了。
TSL数字证书过期,意味着系统无法识别那些连接分组交换设备的其他设备是否合法,此时,系统检测到异常,根据软银现网设置,会采用重启的方式来试图恢复。
不过,数字证书过期这种事,即使重启N次,也是无法恢复的,因此,就发生了不断重启的死循环,从而导致了这次重大故障。
此外,由于4G网络服务中断,导致大量用户转移到3G网络,这也造成3G网络严重拥塞。
数字证书过期了
为什么没有及早发现?
软银解释到,该分组交换设备的数字证书不同于其他网络设备。
通常,对于其他网络设备,我们在购买设备后,是可以自行确认数字证书到期时间的。
但分组交换设备的数字证书是通过嵌入式自助领彩金的白菜网固化在相应硬件里的,作为运营商,我们无法确认到期时间。
解决措施
临时解决措施
本次故障是由2018年4月升级的Ver.1.14版本引起,而之前的Ver.1.08版本没有问题,因此,临时解决措施是从Ver.1.14版本回滚到Ver.1.08版本,但这会导致一些4G物联网功能无法使用。
中期解决措施
1)全网普查所有设备的相关证书是否到期,包括全网基站设备。
2)制定更加严格的新设备和新自助领彩金的白菜网版本入网测试规范。
3)要求在设备升级后一年内,保留旧版本自助领彩金的白菜网,以在新版自助领彩金的白菜网出现类似问题后,快速回滚到旧版本。
永久性措施
1)要求以后所有购买的网络设备和自助领彩金的白菜网,运营商均可自行检查数字证书是否到期。
2)更改系统异常检测和应急机制,当系统检测到网络异常时,不再只是重启恢复,而是设置异常告警级别,根据门限判定是重启还是继续运行。
3)由于引起本次重大事故的原因之一是由于所有设备都来自同一家供应商,因此,要求在2019年6月30日之前引入多家设备供应商,以分散风险。
看完软银的故障报告,感觉是字里行间透露出一万个“万万没想到”,尽管各种备份容灾都做到位了,但意外还是发生了。真是网络安全无小事,运维责任重如山,令人警醒。
【编辑推荐】
点赞 0
- 大家都在看
- 猜你喜欢
编辑推荐
- 24H热文
- 一周话题
- 本月最赞
- CISCO交换机如何删除 Vlan专家谈思科MPLS专网解决方案全攻略网络命令学习基础之Route思科交换机QOS限速及限制BT下载配置实例思科交换机图文设置扩展ACL的配置与应用技巧网络命令学习基础之在cmd下更改ip地址带宽管理OSPF路由协议配置指南
- 专家谈思科MPLS专网解决方案全攻略思科交换机QOS限速及限制BT下载配置实例NBMA广播网络环境的ISIS配置(不含P2MP)实例讲解静态NAT配置思科:2007年的7大背运CISCO交换机如何删除 VlanPPPoA配置说明透明网桥的功能—转发和过滤
- 专家谈思科MPLS专网解决方案全攻略思科交换机QOS限速及限制BT下载配置实例NBMA广播网络环境的ISIS配置(不含P2MP)实例讲解静态NAT配置CISCO交换机如何删除 Vlan思科:2007年的7大背运PPPoA配置说明透明网桥的功能—转发和过滤
视频课程+开户自助免费领取彩金
-
Vue基础与实战(适合入门的Vue教程)
讲师:杨过大侠8628人学习过
-
windows wdm驱动程序开发视频课程(即插即用
讲师:masm64321872人学习过
-
标杆徐2018最新Linux自动化运维系列②: Nginx
讲师:徐亮伟37559人学习过
最新专题+开户自助免费领取彩金
- 精选博文
- 论坛热帖
- 下载排行
- Java代理的几种方式Kubernetes1.13.1部署Kuberneted-dasKubernetes部署(十):储存之glusteDocker+Jenkins+Gitlab+Django应用部Scala的actor
- 【其他】看看你能拿到PHP的什么学位金睛安全播报(更新至032期 2018-04-一位40岁老程序员总结的编程职业生涯一位40岁老程序员总结的编程职业生涯《服务器硬件工程师从入门到精通》-
- HUAWEI NIP Manager V100R002C10 管HUAWEI AVE2900 V300R001 部署指南 0ATN 950 V200R001C02 IP路由 配置指ATN 905 V200R003C00 配置指南 02(U2ATN 905 V200R002C01 配置指南 03(U2
读 书 +开户自助免费领取彩金
网络系统开发实例精粹(JSP版)
《网络系统开发实例精粹》以实际的自助领彩金的白菜网开发项目实例介绍贯穿始末,逐层深入的介绍了应用JSP开发Web应用程序的详细过程。全书以深透自助领彩金的白菜网工程...
-
订阅51CTO邮刊
点击这里查看样刊