最近看到一组数据挺震撼:在大模型训练系统里,网络通信开销最高能占到总时间的一半。也就是说,如果网络效率能提升10%,整个AI训练效率可能直接蹿一大截。难怪不少算力工程师看到scaleFabric400的参数时,眼睛都亮了。
先看硬指标:端到端通信时延压到0.9微秒,整机交换容量干到双向64Tbps。这意味着万卡集群里所有GPU同时通信,都不会堵车。扩展能力更是拉满,单子网能撑起11.4万卡,十万卡集群一张网搞定,不用折腾复杂的跨子网拼接。
还有两个工程细节,懂行的人一看就知道含金量。一个是信用式无损流控机制,从协议层就把拥塞丢包的根儿堵死了,不像RoCE那样得靠运维团队天天调水线。另一个是链路恢复时间小于1毫秒,对大规模集群来说太关键了:日均链路故障几十次的情况下,能做到训练任务完全无感。
以前总觉得高端RDMA网络只能用国外方案,现在国产方案不仅性能对标,听说还在真实万卡集群里跑起来了。当AI进入万卡甚至十万卡时代,算力竞争拼的早就不只是芯片了,而是整套系统能力。而高速互联,就是那条最关键的“算力大动脉”——跳得稳,算力才能跑得起来。