Y10T5 阿里关于DCI互联的不可用性分析

更新时间:2024-01-05 08:01:40 阅读量:709

阿里在2022年的OFC发布光模块中的失效分析,在2023年的ECOC发布了DCI的超大规模数据中心的不可用性分析

通信网络的不可用性(unavailability),是指在给定的瞬时或在给定的时间间隔内,假定所需外部条件得到满足,产品(装备)在规定的条件下处于不能执行所需功能的状态的概率。

简单理解就是网络不通的概率,阿里统计了整整一年的数据量


1.jpg


2.jpg


把阿里这份报告中的数字收集一下

网络不可用的异常分析中,73.3%与光纤有关,25.23%与割接有关。

光纤相关的内容,67.87%是与光纤的断裂相关的,5.43%与光纤损耗增大有关,与损耗相关的内容可控,其实光纤断裂很多是外因导致,工程人员能做的是快速修复能力的提高。

25.23%的网络异常是割接引起的,网络要改造,要升级,这些其实是常态,每运行一段时间就需要有割接的工作,这个呢是可以提前规划的,尽量的降低影响,但终究不能完全避免。


3.jpg


光纤断裂在整个的OCH光层中占比最大,67.87%,且修复时间最长,平均修复时间2.27小时,其中76.77%可在3小时内修复,95.02%可在10小时内修复。


4.jpg


网络割接导致的不可用性,占比25.23%,平均的恢复时间0.92小时,其中96.47%可在3小时内恢复。提高网络切换的效率,提高割接能力是优化方向。


5.jpg


光纤损耗增大导致的网络不可用占比5.43%,平均修复时间5分钟,86.23%可在15分钟内恢复通信,98.27%可在1小时内修复,通过线路中增加光功率调整,来弥补光纤损耗异常/增大导致的不可用,可将异常降低3.3倍。

某通道突然业务不通,占比1.25%,失效数据样本太少,平均修复时间0.32小时。

光层电层的硬件故障,占比非常低,分别为0.18%和0.04%


6.jpg


7.jpg