Y10T163 华为:AI组网与延时

更新时间:2024-06-10 15:06:17 阅读量:758

Y10T138 海思:AI场景下的光模块技术

Y9T253合集2023下 AOI基于TFLN的800G LPO

Y10T95 旭创:用于生成式AI的高速光模块

Y10T108 MACOM AI与LPO

之前写过光模块采用传统DSP和无DSP的LPO对延时的影响,总的来说,DSP会产生50-100ns左右的延时

OFC2024,华为做了一个AI组网,对整个系统的时延的组成做了一组分析,


1.jpg


采用800GE设计100米范围内组网,对各类时延做定量分析,其中光纤传输路径时延占比超过一半,其余时延占据另一半。

如果延长传输距离,则时延占比会更大一些,后边还有数据。


2.jpg


做个简要解读


3.jpg


如果采用100GE光模块做AI组网,则传输报文时延会大幅度增加

4.jpg


华为给出的一组时延细分柱形图

5.jpg



我重新整理一下,光纤传输距离导致的时延,与选择什么系统无关,与光纤本身的折射率和传输距离有关。采用空芯光纤可以降低时延,缩短距离可以降低时延。总的来说,目前的玻璃芯光纤,时延约5ns/米

另外,采用高速率光模块,Tx/Rx打包成帧的时延会大幅度降低,~~,咱们的LPO取消DSP可以节约50-100ns时间,也是在这个范畴里。

FEC前向纠错的编码(插入码型)的时间也随速率提高而降低。


6.jpg



FEC是前向纠错,如果无法完成纠错,就会通知对方重新发送,这个事情呢,比如快递员看到一个信息,写的是深川南山区,OK,快递员自己就纠正了。如果是一个无法识别的信息,就需要打电话让发件人重新更正一下。

无论是FEC前向纠错,还是重新发送,都会产生时延,需要权衡设计,重新发送主要是信息传递的光纤导致的时延,FEC主要是编解码的时延。


7.jpg



误码控制需要一定的时延,但如何有效降低误码对于系统而言更为重要,之前见过的一个曲线Y9T137 科大讯飞&华为:AI场景智能光模块与LPO光模块


8.jpg


交换机的转发机制,也是需要权衡的,这个和光模块本身没什么关联,看看就行。

9.jpg



光纤的传输距离与时延,华为在千亿参量基础上做两级叶脊结构的园区内组网时延,光纤从100米和4千米传输,距离延长40倍,整个的AI训练的性能仅劣化-6%


10.jpg


采用130亿AI训练参量,把脊交换机光纤距离拉长到100公里,进行城域组网的验证,光纤长度导致500微秒时延,相比较100米传输距离,计算迭代时间从2.8秒增加到2.9秒。性能劣化4.41%


11.jpg


12.jpg




13.jpg

14.jpg