阿里在2022年的OFC发布光模块中的失效分析,在2023年的ECOC发布了DCI的超大规模数据中心的不可用性分析
通信网络的不可用性(unavailability),是指在给定的瞬时或在给定的时间间隔内,假定所需外部条件得到满足,产品(装备)在规定的条件下处于不能执行所需功能的状态的概率。
简单理解就是网络不通的概率,阿里统计了整整一年的数据量
把阿里这份报告中的数字收集一下
网络不可用的异常分析中,73.3%与光纤有关,25.23%与割接有关。
光纤相关的内容,67.87%是与光纤的断裂相关的,5.43%与光纤损耗增大有关,与损耗相关的内容可控,其实光纤断裂很多是外因导致,工程人员能做的是快速修复能力的提高。
25.23%的网络异常是割接引起的,网络要改造,要升级,这些其实是常态,每运行一段时间就需要有割接的工作,这个呢是可以提前规划的,尽量的降低影响,但终究不能完全避免。
光纤断裂在整个的OCH光层中占比最大,67.87%,且修复时间最长,平均修复时间2.27小时,其中76.77%可在3小时内修复,95.02%可在10小时内修复。
网络割接导致的不可用性,占比25.23%,平均的恢复时间0.92小时,其中96.47%可在3小时内恢复。提高网络切换的效率,提高割接能力是优化方向。
光纤损耗增大导致的网络不可用占比5.43%,平均修复时间5分钟,86.23%可在15分钟内恢复通信,98.27%可在1小时内修复,通过线路中增加光功率调整,来弥补光纤损耗异常/增大导致的不可用,可将异常降低3.3倍。
某通道突然业务不通,占比1.25%,失效数据样本太少,平均修复时间0.32小时。
光层电层的硬件故障,占比非常低,分别为0.18%和0.04%