2025OFC,NVIDIA在Workshop提到基于Nvlink5的铜互联技术。
在提到AI算力组网时,会用到一个scale out和scale up的词儿,这俩词儿呢都是说扩大算力规模。
通常up指的是节点内的扩容,比如芯片更小多放芯片,叠摞更多芯片,更高的传输速率....,节点间的信号传输距离较短,虽然电缆的传输距离不长,够用在节点内部互联的。
out一般指的是节点间的扩容,用多个节点进行组网,因为节点间的传输距离更长一些,选择光通信的比例就增加了。
3月29日我聊过一期热点技术,关于铜缆模块与光模块的,里边提到了二者的不同之处,以及大量的200G电信号处理的难点。
在短距离互联里,看到很多的射频信号铜缆。
现在的铜缆,有支持PCIe的,也有支持Nvlink的,其实二者属于相伴而行,Nvlink是英伟达的私有协议,速率比PCIe更高一些,支持更大容量的信号传递。主要用于GPU之间的大容量互联。
我略总结一下,PCIe的代际速率,Nvlink的代际速率。
2025年,光学信号走向200Gbps APM4,电缆信号同样也走到200Gbps PAM4的Nvlink5时代。
如果用Nvlink5,来组网NVL72节点,则从原来的两柜优化到一柜即可。
18个Nvlink的交换芯片,与72个GPU芯片,都可以放到一个柜子
这一个柜子,依然是18个计算托盘,9个交换托盘。只是每个交换托盘里有俩Nvlink5的交换ASIC主芯片。等于一个托盘俩交换机。
整个的电缆信号速率,从之前的100Gbps,提升到200Gbps PAM4,电缆长度长度最短支持190mm以上,最长不超过925mm(大约1m)。
单柜NVL72,里边有4个电缆盒,每个盒1296根双轴射频电缆,总计5184根射频电缆。
电缆型号,30AWG比较轻,但射频损耗较大,如果能满足连接长度,就选轻的30AWG,如果性能不足,那就选更重的26AWG。
这二者属于性价比的权衡。
Y11T86 NVIDIA在GTC2025提到AI从生成式走向代理式,
提到未来的Nvlink的发展趋势的时间表。NNL576的576 GPU芯片更大规模的组网,也许就用到了每lane 400Gbps的信号。
这个400Gbps说的是纯业务信号,考虑到各种插入码型,如插入FEC等各种校验码等,实际速率可能为448Gbps,说可能而非一定,是因为插入码型导致的实际速率有差异,如FEC,有很多类型,码型的插入比例也不一样的。