近日华为公布AI基础设施架构新进展,CloudMatrix 384超节点或终结算力焦虑
最近,华为宣布了AI基础架构体系结构的新进展,并推出了CloudMatrix 384 Super Node,并已在Wuhu Data Center推出。 “科学和技术创新委员会每天”专门了解到,华为云云Matrix384超级节点将于今年上半年推出。华为内部人士称其为核炸弹类产品,并可能完全终止计算能力的焦虑。将来,CloudMatrix超节点可以建造大型群集,这些群集可提供10,000多件,以提供计算能力。
传统的AI服务器通常包括8台电源计算卡,一台服务器称为节点。在服务器中,这8个电源卡之间的传输速度非常快,但是服务器之间的传输速度要慢得多。随着大型模型浪潮的到来,行业巨头需要连接数千甚至100,000个GPU计算电源卡,这使得互连和通信成为一个大问题。
如果可以使用高速通信技术将更多的计算电源卡整合到超级节点中,那么超级节点中的计算电源可以实现高速互连和通信,这可以大大提高计算电源群集的性能。
2024年3月,NVIDIA率先释放NVL72超级节点,该节点可以将72个训练卡结合到一个超级节点,从而为大规模语言模型推论提供了30倍的实时速度提高,并提供了数万亿参数参数。这次发布的华为CloudMatrix 384更进一步,形成了一个超级节点,该节点具有384升计算电源卡,这是当前商业上可用的超级节点中最大的单元。
据报道,华为CloudMatrix 384在规模,性能和可靠性方面对NVL72进行了基准测试。它基于CloudMatrix的Ascend AI云服务。大型模型训练工作可以稳定40天,并且互连带宽断点恢复在10秒级别。在互连带宽方面,超节点网络交换机使用6812 400G光学模块实现2.8TBPS InterCard Intercard Interconnect带宽。
“科学与技术创新委员会每天”从基于硅的流程中得知,基于硅的流量已由基于CloudMatrix384 Super Node Asper Ascend Cloud Service的华为云正式推出。在确保单个用户的20TPS级别的前提下,单卡解码吞吐量超过1920Tokens/s,与H100部署性能相当。同时,在主流测试集验证和大规模在线测试之后,在升天计算功率上部署的DeepSeek-R1的模型准确性与DeepSeek的官员一致。
目前,在单卡的性能方面,国内芯片和NVIDIA芯片之间仍然存在一定的差距,但是通过多牌群集后,差距会缩小。华为发布的数据表明,CloudMatrix 384的计算功率量表为300pflops,与Nvidia的180pflops相比增加了67%。
但是,就单元计算功耗而言,国内芯片仍然高于NVIDIA。
芯片行业的内部人士告诉《科学技术创新委员会》,华为的公共数据没有提及CloudMatrix 384的计算功耗比。更高的功耗还需要更高的服务器冷却,计算机房间的规模将更大,从而增加了总成本。此外,如果计算电源的数量很大,则需要在多个卡之间来回传输数据,这将导致更大的时间开销。
“当然,即使功耗更大,也不容易做NVL72,这反映了华为的强大研发能力。”上面的人说。
国泰海顿证券(Cathay Haitong Securities)表示,华为云推出了Cloudmatrix 384 Super Node。在单个用户的20TPS前提下,单卡解码吞吐量超过1920代币/s,与全局主流GPU部署性能相当。超节点柜在集群推理方面具有优势。随着国内和外国硬件供应逐渐减轻的瓶颈,我们对国内AI进度的进步感到乐观。
发表评论
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。