英伟达面临散热挑战与订单压力,CPO交换机或成关键解决方案
GPU新品出现散热问题,主要客户订单受到影响。 Nvidia 这些天可能过得并不轻松。如果想要保住“算力霸主”的地位,这个巨头急需一剂良药。
近日有消息称,Nvidia 将在今年 3 月份的 GTC 大会上推出 CPO 切换。如果试产顺利,预计8月份实现量产。至此,CPO交换机可实现115.2T信号传输。
该媒体援引供应链猜测称,“英伟达对(CPO切换)产能感到非常焦虑”。
虽然黄仁勋声称供货顺利,但目前GB200系列的出货情况确实不容乐观。 GB200 NVL72机柜设计复杂,高性能计算带来高功耗和高散热要求。零部件厂商表示,单个机柜的问题已经“大致解决”,但连接多个机柜的问题却“巨大”——机柜连接需要多达8万根铜线,散热、信号干扰等问题接踵而至。其他。
这并不是耸人听闻的夸张——冷却和连接方面的巨大问题已经影响了英伟达顶级客户的订单。
本周另一份报道指出,微软、亚马逊、谷歌和Meta等公司都选择推迟Blackwell订单或直接“放弃B(Blackwell)并投资H(Hopper)”。一方面,GB200的功耗“空前高”,每个机柜功耗高达120-132千瓦,直接将传统散热系统推向极限。另一方面,Blackwell 机柜也出现过连接故障,这阻碍了热量分布并进一步加剧了热管理问题。
热互连问题越来越迫近。 NVIDIA 可以采取什么措施来解决这个问题?芯片级优化、更先进的冷却解决方案,还是彻底的机柜检修?
这一次,光通信或许成为现阶段最好的技术解药,英伟达将目光投向了CPO。
千倍增长空间,7年CAGR 172%
为什么是首席采购官?
CPO的全称是Co-Packages Optics,翻译成中文就是光电共封装。它是一种新型的光电集成技术。通过进一步缩短光信号输入与计算单元之间的电互连长度,CPO实现了更低的功耗,同时提高了光模块与ASIC芯片之间的互连密度。它已成为未来海量数据处理的解决方案。解决高速传输问题的重要技术途径。
在 2023 年 2 月发表的研究论文中,NVIDIA 研究人员直言,“现在,随着 CPO 的出现,我们正处于新的重大变革的边缘。在CPO架构中,光学器件将与ASIC封装在一起。总之,为了降低能耗并实现更高的带宽,尽管CPO在十年前就开始了系统部署,但最近的一系列研究演示和相关产品描述表明CPO将在未来几年内被市场广泛采用。”
摩根士丹利在最新的AI供应链行业报告中指出,CPO具有AI数据中心的传输潜力,预计2023年至2030年间其市场规模将从800万美元激增至93亿美元 - 7 有空间每年增长千倍,年复合增长率高达172%。
此前有消息称,NVIDIA计划从2025年下半年推出的GB300芯片开始采用CPO。Rubin平台(Blackwell的下一代平台)也将采用该技术,旨在突破目前的NVLink 72互连(最多可连接72个GB200芯片)。 )限制以提高通信质量。
摩根士丹利的报告指出,Nvidia的Rubin平台及其NVL服务器机柜系统在引入CPO方面具有更高的知名度,并且在每个系统中的嵌入价值更高。预计2027年将占全球原棕油需求的75%。
与巨人同行
无论如何,Nvidia 在 CPO 道路上可能做出了正确的选择。从 AMD、思科、IBM 到英特尔,他们都在与它同行。
例如,1月6日,美国芯片制造商Marvell宣布,该公司在定制其AI加速器架构、集成CPO技术并显着提升服务器性能方面取得突破。这种新架构允许 AI 服务器功能从目前使用铜互连的单个机架中的数十个 XPU 扩展到多个机架上的数百个 XPU。通过这种架构,超大型云服务提供商将能够开发定制的 XPU,以实现更高的带宽密度,并在单个 AI 服务器内提供更远距离的 XPU 到 XPU 连接,并具有最佳的延迟和功效。
2024年底,IBM宣布了一项重大CPO技术突破,可以以“光速”训练AI模型,同时节省大量能源。根据IBM的结论,这项CPO技术可以将标准大型模型的训练时间从3个月缩短到3周;并且,与中档电气连接相比,能耗降低5倍以上,数据中心互连电缆长度可从1米延长至数百米,大大降低了扩展生成式AI的成本。
此外,Intel、AMD、Cisco等近年来都在OFC展会上推出了CPO原型机。
有多远?
当前关头,CPO这根“救命稻草”能否拯救英伟达?
也许你还需要等待。
在1月16日的投资者会议上,英伟达CPO合作伙伴台积电董事长魏哲家表示,虽然CPO已经取得了初步成果(Good Result),但距离达到量产还需要一年甚至一年半的时间阶段。以上时间。
另有媒体援引分析师的话称,CPO进展将影响英伟达Rubin系列的量产进程。供应链人士透露,目前“量产确实困难,尤其是设备部分还相当紧张,良率也有待提高”。
值得一提的是,1月16日,针对GB200服务器的散热问题,黄仁勋表示,Blackwell平台散热技术相对复杂,但Blackwell系统已经开始全面量产。与系统的复杂性相比,最初面临的挑战是正常的。是的,Blackwell 系统已经开始向世界各地的客户销售。
发表评论
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。