Y10T271 海思用于AI场景的智能光模块--续

更新时间:2024-09-27 09:09:25 阅读量:659

今年5月份,写过一篇海思用于AI场景的光模块,重复的内容就不再赘述,今天写的一小段算“续”

Y10T138 海思:AI场景下的光模块技术,提到故障率的降低,训练不中断,迅速排障等功能。


1.png


其中业务芯片工作状态的检测,通过转换通道实现不中断业务。400G SR4光模块有四个通道,传统光模块呢,是物理层器件,不参与业务运行。

按照万卡集群部署的统计,年化失效导致的中断,达到60次,换算成年故障率的话,就是千分之四。科大讯飞有提到过一个数字,说每中断一次他们的损失就是100万块钱。

华为采用通道切换技术,当检测到某一个通道有大量误码,就切换这个通道的传输,把数据转到其他通道去,整体AI的训练不中断,故障率降低10倍,网络的可靠性等于提升10倍。

实现这种技术,源于华为不仅仅做光模块,他们是一个系统性的垂直整合。


2.png


链路健康度的检测,是增加了光纤断纤、虚接、脏污等故障的预警能力,可快速排障。

这个事情呢,和咱们AI数据中心的建设实际情况相关。


3.png


咱们的光模块生产车间,大家都有印象吧,各种防尘措施。

Y3T267 无尘服

可真正搭建机房的工作环境,一边工人施工,一边网络进行开局实验,咱们老百姓都知道装修时的灰有多大。

要求的A类机房粉尘浓度是万级车间,而实际的环境是24.7万个/L,这些灰尘的颗粒度用的单位是“μm”,咱们的光纤尺寸描述的单位也是“μm”,在光纤的眼里,灰尘颗粒就是巨石横亘在连接器端面上


4.png


5.png


灰尘的出现,让光纤端面的接触硌了一颗小石子,导致了端面的反射,产生信号干扰。

Y10T254 Marvell MPI多径干扰估算及补偿

这种光纤脏污的检测,通常使用OTDR检测仪来判断,Y10T59有一点原理可以看看。

Y10T59 光纤断点检测的两种方式

OTDR这种仪表呢,可测试出菲内尔反射与瑞利散射。


6.png


其实菲涅尔反射与瑞利散射的原理本质是一样的,只是前者是宏观界面,后者是原子级别的微观层面的视角而已。

核心的原理是,光的折射率不一样的界面,出现反射。

光纤脏污,导致光纤的连接出现“空气隙”,光纤折射率~1.5,空气折射率~1.0,折射率差导致一个巨大的反射峰。

~~~,为啥现在激光器要“抗反射”,就是因为反射对信号产生了影响,导致传输性能劣化。~~~

如果捕捉到这个反射峰,那就等于识别了故障,重新擦一擦光纤,就等于排出故障。


7.png


瑞利散射也是因为折射率差,但需要将视角放到原子级别,有硅原子和氧原子的地方,折射率大,中间的空隙折射率小。


8.png


宏观上看OTDR仪表上的曲线,

瑞利散射较小,且随着光纤的长度逐渐降低,通过斜度就可以推算出光纤的具体损耗值。这个事情呢,是光纤的本身特点,不是故障引起的。所以,测不测都行。

菲涅尔反射,是突然增加的一个反射量,这个反射量的大小,与光纤故障相关,比如光纤断裂,光纤裂纹,活动连接器虚接,脏污等等,根据样本对比,就能做出判断。这个菲内尔反射量很大,也容易测试,且与故障相关,华为重点在于监控这个量。

故障位置的判断,咱们很是聊过一些激光雷达的检测,这就是利用反射来定位的一种技术,TOF,通过时间来判断位置。光的传输速度已知(光纤的光速=真空光束/折射率),发射与接收的脉冲间隔时间可测试,那么很容易就计算出反射点的位置。

《2022合集下》Y8T308 区分激光雷达TOF、AMCW和FMCW

海思今年光博会上展示的一个性能表,我用图来表示,大的菲涅尔反射点,能推算出距离,并初步判断故障类型。


9.png


OTDR功能内置于光模块内,这个事情呢提了十几年了,行业标准也定义了很多类型。

采用DD检测,可以识别菲涅尔反射,是低成本技术,当然检测的精度也不太高。对于很多场景而言,够用就行。这个DD叫直接检测,看Y10T257的解释即可。

再者,采用相干检测,可以提高精度。

Y10T257 区分QSFP-DD与IM-DD的两个DD


10.png


相干检测,一般采用外差法实现,这种方式需要一个信号光一个本地振荡光来实现。

华为还有一个技术,就是用单激光器实现信号光与本振光的差频处理。激光器的波长(也就是频率)会随电流或温度漂移,那么通过控制电流就可以产生激光器波长(频率)的变化。

在信号脉冲发出去时激光器波长采用一个电流,在脉冲返回来的时候,迅速改变激光器的bias电流,激光器的波长略变,用于和返回来的脉冲信号实现“外差”混频干涉,提取高精度的OTDR信号。

这些功能所需的脉冲控制都可以集成在DSP里,如果激光器就采用业务信号所用的激光器,那么光模块可以配置为“业务”状态,或“检测”状态。

开局前,先检测,识别故障点。

正常训练时,光模块处于正常业务工作模式,即可。



11.png