近日华为公布AI基础设施架构新进展，CloudMatrix 384超节点或终结算力焦虑

来源：网络作者：日期：2025-04-14 22:10:04

最近，华为宣布了AI基础架构体系结构的新进展，并推出了CloudMatrix 384 Super Node，并已在Wuhu Data Center推出。 “科学和技术创新委员会每天”专门了解到，华为云云Matrix384超级节点将于今年上半年推出。华为内部人士称其为核炸弹类产品，并可能完全终止计算能力的焦虑。将来，CloudMatrix超节点可以建造大型群集，这些群集可提供10,000多件，以提供计算能力。

传统的AI服务器通常包括8台电源计算卡，一台服务器称为节点。在服务器中，这8个电源卡之间的传输速度非常快，但是服务器之间的传输速度要慢得多。随着大型模型浪潮的到来，行业巨头需要连接数千甚至100,000个GPU计算电源卡，这使得互连和通信成为一个大问题。

如果可以使用高速通信技术将更多的计算电源卡整合到超级节点中，那么超级节点中的计算电源可以实现高速互连和通信，这可以大大提高计算电源群集的性能。

2024年3月，NVIDIA率先释放NVL72超级节点，该节点可以将72个训练卡结合到一个超级节点，从而为大规模语言模型推论提供了30倍的实时速度提高，并提供了数万亿参数参数。这次发布的华为CloudMatrix 384更进一步，形成了一个超级节点，该节点具有384升计算电源卡，这是当前商业上可用的超级节点中最大的单元。

据报道，华为CloudMatrix 384在规模，性能和可靠性方面对NVL72进行了基准测试。它基于CloudMatrix的Ascend AI云服务。大型模型训练工作可以稳定40天，并且互连带宽断点恢复在10秒级别。在互连带宽方面，超节点网络交换机使用6812 400G光学模块实现2.8TBPS InterCard Intercard Interconnect带宽。

“科学与技术创新委员会每天”从基于硅的流程中得知，基于硅的流量已由基于CloudMatrix384 Super Node Asper Ascend Cloud Service的华为云正式推出。在确保单个用户的20TPS级别的前提下，单卡解码吞吐量超过1920Tokens/s，与H100部署性能相当。同时，在主流测试集验证和大规模在线测试之后，在升天计算功率上部署的DeepSeek-R1的模型准确性与DeepSeek的官员一致。

目前，在单卡的性能方面，国内芯片和NVIDIA芯片之间仍然存在一定的差距，但是通过多牌群集后，差距会缩小。华为发布的数据表明，CloudMatrix 384的计算功率量表为300pflops，与Nvidia的180pflops相比增加了67％。

但是，就单元计算功耗而言，国内芯片仍然高于NVIDIA。

芯片行业的内部人士告诉《科学技术创新委员会》，华为的公共数据没有提及CloudMatrix 384的计算功耗比。更高的功耗还需要更高的服务器冷却，计算机房间的规模将更大，从而增加了总成本。此外，如果计算电源的数量很大，则需要在多个卡之间来回传输数据，这将导致更大的时间开销。

“当然，即使功耗更大，也不容易做NVL72，这反映了华为的强大研发能力。”上面的人说。

国泰海顿证券（Cathay Haitong Securities）表示，华为云推出了Cloudmatrix 384 Super Node。在单个用户的20TPS前提下，单卡解码吞吐量超过1920代币/s，与全局主流GPU部署性能相当。超节点柜在集群推理方面具有优势。随着国内和外国硬件供应逐渐减轻的瓶颈，我们对国内AI进度的进步感到乐观。

分类： 股市

地址： http://news.lianzhou.cn/post/13023.html