前言
做计算是生活中常见的事儿。需要计算的量很多时,可以一个人算,多算一会儿,也可以几个人合起来计算,这就需要人和人之间的做计算结果的交流。
用机器替代人,就是电脑,或者可以理解为内部的计算芯片。
一个芯片计算,还计算不完的话,就用多个芯片来计算,这就是所谓多个GPU(计算芯片)组合起来。
这个GPU做信号互联,可以用各种方式,连起来是核心目的,采用什么方式,取决于性价比。可以用铜缆,可以用光缆。
无非是铜缆便宜,但距离很短,只有区区几米。
光纤(缆)+光电信号转换器(就是咱们的光模块),可以传的很远,但是很贵。
能用铜缆解决的,就不想用光纤,这就是产业的特点。这是前一段突然聊起来的NVIDIA 铜互联的原因。
Y10T1 LC预估AEC、DAC和AOC模块2028年达到28亿美元市场,写了细铜缆的技术原理。
OCS光交换机替代传统的电交换机
这些话另外的理解就是,在数十米及以上的物理距离,还是光纤通信的菜,可光模块很贵,怎么办?用光交换机。
这个事情呢,在干线传输里,已经进行过一轮了,就是从电交叉到光交叉的演变,无非是把这个理念针对数据中心尤其是AI场景下做一个更合适的技术搭配。
光交换有两大技术类别用在产业里。
一个是基于MEMS做光路控制,一个是基于液晶的技术。
Lumentum、谷歌等选择的是MEMS交换,Coherent(原来Finisar)、华为、英伟达NVIDIA等选择液晶技术、硅基或玻璃基。
《2023合集下》 Google的Gemini的TPU光交换技术
液晶技术
《2023合集下》 偏振无关LCOS硅基液晶WSS,这一篇里解读玻璃基液晶和硅基液晶做光路转换的基本原理。
今年的OFC,Finisar(Coherent)也发布了基于液晶的LCOS光交换机,用于AI。~~~~~,为啥他家发布这么快?就是因为之前做干线的WSS也是基于液晶技术,而WSS简化一下,用在AI,就可以了呀。
液晶这个聚合物材料,在光模块里用的很多,光学特性(用于光开关)、射频特性(用于高频基板)、机械特性(用于封装铌酸锂)、阻水特性(用于半气密封装)....
《2023合集下》LCP做铌酸锂的封装基板
《2023合集下》 采用LCP制作“准气密”空腔
回到正题,今年英伟达在OFC的报告提到他们也做了光交换的实验。
逻辑如下
GPU芯片的计算能力,随产业发展不断提高,大约两年半就提高一倍,可但是AI的需求所需的训练量,半年就翻一番。
这么多的计算数据,用GPU慢慢算也行,用多个GPU组合起来一起算也行,给了一组对比数据,
GPT3的OpenAI的计算模型,用2020的GPU计算能力,算355年,也能出结果。
换成1024个A100的GPU芯片一起算,32天就可以了。
关键AI的模型,参量越来越多,这就得需要有能力组织更多的GPU,还得做提前规划,具有可扩展性。这就有了GPU矩阵,需要各种互联,能选电就选电,选不了的就选光通信。
英伟达的电缆互联是NVLink,在GPU之间的互联进行的。当然也不是所有GPU之间都用电缆,需要看距离,俩柜子很近,可以用。稍远一点的也不行,需要多模光模块。
这些数据还需要互联网来做进一步连接,这就是以太网或者InfiniBand(IB)来互联,这里头很多就出现了单模光模块,传输距离略长一点。
多个GPU芯片组成DGX,然后继续组合成Super POD,网络越来越复杂,光模块越用越多,越来越贵。
基于电交换的胖树结构,需要非常多的光模块,如果采用光交换的技术,可以大幅度降低模块数量,这也是一种选择。谷歌用了光交换,英伟达也开始做这方面的验证。
《2023合集下》AI的胖树拓扑对光模块要求的变化
2024年OFC,英伟达用了114个200G FR4模块,320x320的光交换阵列,4台DGX A100和14个IB交换机做了组网。
14个IB交换机,是4+1+8+1,4个脊交换机和1个冗余备份交换机,8个叶交换机和一个冗余交换机,冗余是为了在光模块出现故障时,切换备用通道的。
小结一下
铜缆还是光模块?
铜缆便宜,但距离很短
多个GPU的组合,物理空间不足以支持全部采用光缆,光模块是需要的。
光模块数量如何降低?用光交换替代电交换
光交换的矩阵小,电交换的矩阵大
光交换可以采用多波长复用,电交换只能一个通道一个通道处理
用于光交换的光模块,通常需要FR4、2FR4、CWDM4等波长复用技术,Bidi技术等等,来降低对光交换矩阵数量。《2020合集》Y6T172 CWDM、MWDM、LWDM、DWDM