Y10T289 AI算力“3000P”的意思 昨天的末尾提高光模块数量的不确定性,展开来多聊几句。
AI模型小参量,计算量小,光模块就用的少,当然AI能处理的事情和AI结果就不是很理想。参量增大,计算量增大,光模块相应用的就多。这个容易理解。所以选择什么AI模型,和客户自己的设计有关。
接着,如果选好模型,要计算完成一个AI模型,我们还有两个大的选择
小算力,通过增加计算时长,来完成任务。
大算力,通过快速计算,完成任务。
也就是一个确定的AI模型计算量,就像搬砖,量是一定的,大卡车搬半天搬完,小推车搬俩月搬完,都可以的。这对于光模块市场首先就有了不确定性。
对于一个确定AI模型计算总量的前提下,看选择了多少算力,需要多个算力芯片来组网完成算力集群,这里有二次选择,单卡的算力很大,那么组网规模就小,光模块就用的少。单卡算力选择了很小的初代产品,那么组网的规模就大,光模块就用的多。
再者,确定了单芯片算力,组网模块选择高速模块,如800G、1.6T,相比较低速200G、400G模块,选择高速模块用量就少。
再再者,有很好的热处理能力,可以支持很多GPU挤在一起,那么GPU之间的距离会缩短,铜互联就增多,光模块就减少。如果热处理和电源功率不足,那就得让GPU之间拉开距离,光模块的用量就增多,铜互联就减少了。
我也在群里头,老提这个事情,铜与光的关系。铜的优点,低功耗,低成本,高可靠性,就一个缺点,传输距离随着射频带宽的提高而不断降低。
100Gbps PAM4的铜缆还有几米的传输距离,到200Gbps,就剩下1-2米了。这个铜的趋肤效应就是客观规律。也是铜和光的主要划分线,距离带宽积。
今天再加一点Lightcounting给出的铜和光的简单划分吧。GPU的组网,分成芯片之间的互联,托盘间互联,以及机柜之间的互联组网。
芯片,目前以铜为主,积极研究片间光互联,Lightcounting认为三年五年后大约光互联占据~5%的比例。
片间的Die与die采用铜互联是现在多芯片封装的传统技术,采用TSV、TGV、TMV等等,实现基于铜的立体互联结构。
光互联属于很早就提的概念,但是一方面市场驱动力不足,另一方面可靠性和功耗不能降下来,在现如今的市场占比很小,未来在更大容量铜难以实现的场合,基于硅光混合波导及调制解调技术(硅波导、玻璃波导、氮化硅波导等等)来实现晶圆级片上die互联是有可能的。
硅内互联,也就是托盘之间的互联,目前是以铜为主的市场,铜缆模块有源或无源的铜缆模块,对于托盘间几米的距离,还是十分有低成本竞争优势的。
但对于链接带宽越来越大的场景,不可避免的要光进铜退,发挥光传输距离带宽积很大的优势。
机柜为单位的宏观互联,是光通信的主要应用场地,基本上铜缆模块与光模块的比例在于各自坚守的一亩三分地,几十米以上的距离是光的,但凡是铜能做的,光也难抢走。
再看之前写过的几个数字,算是参考一下吧。
【2024-10-19】大算力时代光通信网络趋势及核心光器件