菲魅通信

Y10T89 NVIDIA采用OCS光交换实验

更新时间：2024-04-01 07:04:25 阅读量：3071

前言

做计算是生活中常见的事儿。需要计算的量很多时，可以一个人算，多算一会儿，也可以几个人合起来计算，这就需要人和人之间的做计算结果的交流。

用机器替代人，就是电脑，或者可以理解为内部的计算芯片。

一个芯片计算，还计算不完的话，就用多个芯片来计算，这就是所谓多个GPU（计算芯片）组合起来。

这个GPU做信号互联，可以用各种方式，连起来是核心目的，采用什么方式，取决于性价比。可以用铜缆，可以用光缆。

无非是铜缆便宜，但距离很短，只有区区几米。

光纤（缆）+光电信号转换器（就是咱们的光模块），可以传的很远，但是很贵。

能用铜缆解决的，就不想用光纤，这就是产业的特点。这是前一段突然聊起来的NVIDIA 铜互联的原因。

Y10T1 LC预估AEC、DAC和AOC模块2028年达到28亿美元市场，写了细铜缆的技术原理。

OCS光交换机替代传统的电交换机

这些话另外的理解就是，在数十米及以上的物理距离，还是光纤通信的菜，可光模块很贵，怎么办？用光交换机。

这个事情呢，在干线传输里，已经进行过一轮了，就是从电交叉到光交叉的演变，无非是把这个理念针对数据中心尤其是AI场景下做一个更合适的技术搭配。

光交换有两大技术类别用在产业里。

一个是基于MEMS做光路控制，一个是基于液晶的技术。

Lumentum、谷歌等选择的是MEMS交换，Coherent（原来Finisar）、华为、英伟达NVIDIA等选择液晶技术、硅基或玻璃基。

《2023合集下》 Google的Gemini的TPU光交换技术

Y10T17 谷歌TPU用到的DSOI结构MEMS

Y10T72 谷歌用于AI的800G bidi环形器

Y10T32 OCS光交换的光纤阵列控制

Y10T30 OCS光交换机的光路控制

Y10T72 谷歌用于AI的800G bidi环形器

液晶技术

《2023合集下》 偏振无关LCOS硅基液晶WSS，这一篇里解读玻璃基液晶和硅基液晶做光路转换的基本原理。

今年的OFC，Finisar（Coherent）也发布了基于液晶的LCOS光交换机，用于AI。~~~~~，为啥他家发布这么快？就是因为之前做干线的WSS也是基于液晶技术，而WSS简化一下，用在AI，就可以了呀。

液晶这个聚合物材料，在光模块里用的很多，光学特性（用于光开关）、射频特性（用于高频基板）、机械特性（用于封装铌酸锂）、阻水特性（用于半气密封装）....

《2023合集下》LCP做铌酸锂的封装基板

《2023合集下》采用LCP制作“准气密”空腔

Y4T144 高频柔性板之-LCP基材

回到正题，今年英伟达在OFC的报告提到他们也做了光交换的实验。

逻辑如下

GPU芯片的计算能力，随产业发展不断提高，大约两年半就提高一倍，可但是AI的需求所需的训练量，半年就翻一番。

这么多的计算数据，用GPU慢慢算也行，用多个GPU组合起来一起算也行，给了一组对比数据，

GPT3的OpenAI的计算模型，用2020的GPU计算能力，算355年，也能出结果。

换成1024个A100的GPU芯片一起算，32天就可以了。

关键AI的模型，参量越来越多，这就得需要有能力组织更多的GPU，还得做提前规划，具有可扩展性。这就有了GPU矩阵，需要各种互联，能选电就选电，选不了的就选光通信。

英伟达的电缆互联是NVLink，在GPU之间的互联进行的。当然也不是所有GPU之间都用电缆，需要看距离，俩柜子很近，可以用。稍远一点的也不行，需要多模光模块。

这些数据还需要互联网来做进一步连接，这就是以太网或者InfiniBand（IB）来互联，这里头很多就出现了单模光模块，传输距离略长一点。

多个GPU芯片组成DGX，然后继续组合成Super POD，网络越来越复杂，光模块越用越多，越来越贵。

基于电交换的胖树结构，需要非常多的光模块，如果采用光交换的技术，可以大幅度降低模块数量，这也是一种选择。谷歌用了光交换，英伟达也开始做这方面的验证。

《2023合集下》AI的胖树拓扑对光模块要求的变化

2024年OFC，英伟达用了114个200G FR4模块，320x320的光交换阵列，4台DGX A100和14个IB交换机做了组网。

14个IB交换机，是4+1+8+1，4个脊交换机和1个冗余备份交换机，8个叶交换机和一个冗余交换机，冗余是为了在光模块出现故障时，切换备用通道的。

Y3T55 数据中心叶脊结构

小结一下

铜缆还是光模块？

铜缆便宜，但距离很短

多个GPU的组合，物理空间不足以支持全部采用光缆，光模块是需要的。

光模块数量如何降低？用光交换替代电交换

光交换的矩阵小，电交换的矩阵大

光交换可以采用多波长复用，电交换只能一个通道一个通道处理

用于光交换的光模块，通常需要FR4、2FR4、CWDM4等波长复用技术，Bidi技术等等，来降低对光交换矩阵数量。《2020合集》Y6T172 CWDM、MWDM、LWDM、DWDM

Y10T89 NVIDIA采用OCS光交换实验

联系我们