字节跳动豆包大模型团队发布COMET通信优化系统,大幅降低大模型训练成本
培训大型模型的高昂成本一直是该行业的痛苦点,各行各业的参与者都在考虑如何使用技术创新来“打击”成本。
3月10日,Bytedance Doubao的大型模型团队发布了Comet,这是MOE(Hybrid Expert Model)体系结构的通信优化系统。该解决方案通过细粒度的计算通信重叠技术有助于大型模型培训和优化。根据Doubao Big Model团队的说法,Comet实际上已应用于Wanka级生产集群,从而节省了数百万GPU(图形处理器)总数的资源。此外,彗星还可以与Ultramem结合使用,Ultramem是由Doubao Big Model Team先前发布的新一代稀疏模型体系结构,以实现协作优化。
“在中国很少有在Wanka集群上进行测试的经验。”一位顶级大型模型算法工程师在接受《日常经济新闻报道》采访时说:“目前只有字节才有这种经验,并且已经共享。
可以看出,由于DeepSeek的开源Model R1在全球范围内变得流行,因此中国更多的大型模型参与者一直以更高的频率开放该技术。在这方面,北京社会科学学院的副研究人员王彭告诉《日常经济新闻》的记者,选择大型模型公司开源技术有助于扩大市场份额,吸引合作伙伴建立生态系统,并增强公司的品牌形象和广泛性。
MUE培训效率提高了1.71倍,字节开源彗星技术
3月1日,DeepSeek在Zhihu的“开源周”之后发布了“ Eastern Egg”,首次释放了模型成本降低和效率提高的技术细节,理论利润率高达545%。
DeepSeek通过MOE体系结构的创新大大降低了激活参数的比率,这大大降低了具有相同效果的大型模型所需的计算能力。 “在处理每个问题时,专家模型激活的671b的参数仅约为37b,并且计算能力需求已减少到原始的至少二十二。”阿里巴巴云的无影子商业部门总裁张Xiantao曾在接受“日常经济新闻”的记者采访时说。
Doubao团队注意到,MOE架构的稀疏性质导致计算与通信之间的动态且复杂的依赖性,其分布式培训仍然面临着跨设备通信开销的巨大成本挑战。
3月10日,Doubao Big Model团队发布了Comet,这是MOE模型的通信优化系统。据报道,彗星通过共享张量依赖性分析机制沿令牌维度或隐藏层维度专门切割了共享张量,以使通信与最小的计算单元保持一致;同时,通过动态负载分配算法,根据输入量表和硬件环境,实时调整线程块分配,从而消除了跨设备通信引起的等待延迟。
Doubao Big模型的技术人员告诉《日常经济新闻报道》,Comet和DeepSeek的双管(双向平行管道技术)都用于减少MOE的通信开销,但方法不同。记者了解到,DualPipe通过创新的双向管道并行技术大大提高了模型的训练效率。
Doubao Big Model团队表示,这种彗星的创新可以在大型MOE型号上达到1.96倍的加速度,并且平均端到端的效率提高了1.71倍。目前,Comet实际上已应用于Wanka级生产集群,有助于有效培训MOE模型,并总共节省了数百万个GPU小时的资源。
“在用100张卡进行测试时,波动可能很小,因为问题的可能性很小(图形卡)很小,但是10,000张卡的波动会更大。”一位顶级大型模型算法工程师告诉《每日经济新闻》的记者,字节将开源此结果,从而为整个行业提供了罕见的Wanka集群实验经验。 “中国只有少数公司拥有10,000张卡。”此外,Doubao模型还指出,彗星还可以与先前由Eardao Mockup团队发布的新一代稀疏模型体系结构Ultramem结合使用,以实现协作优化。
一位来自“日常经济新闻”的记者于2月11日从Doubao Big Model团队中学到的,该团队提出了一个新的稀疏模型架构Ultramem,这有效地解决了MOE推断期间高内存访问的问题。推理速度比MOE架构高2-6倍,并且推理成本可以降低多达83%。
为了争夺“源神”,为什么AI玩家接一个地开放最新的技术?
从DeepSeek-R1引起了世界各地激烈的讨论到开源周的“大广播”,DeepSeek因其连续的开源核心技术而被该行业称为“来源上帝”。根据DeepSeek的行动,国内大型模型制造商也遵循并加快了开源行动。
2月18日,Step Star首次开设了其Step Series Base Model。该模型是世界上最多的参数,也是第一个产品级的开源语音交互,该行业中的第一个产品级开源语音交互。 Minimax还于1月15日发布和开源了01系列模型的新一代,包括基本语言模型minimax-text-01和Visual Multopal模型minimax-Vl-01。
除了领先的AI初创公司外,许多重新投资大型型号的互联网巨头也跟随开源热潮,其中阿里巴巴一直是“开源天才”。 3月3日,开源社区拥抱面的最新列表显示,仅开源的阿里巴巴Wanxiang Big Model仅6天就已经超过了DeepSeek-R1,并且已成为该模型热门列表的两个主要列表和空间列表的两个主要列表,成为了最近全球开源社区中最受欢迎的大型大型模型。 3月6日清晨,阿里巴巴再次推出了新的开源结果。 Alibaba Cloud Tongyi Qianwen的官方微博帐户宣布了最新推论模型QWQ-32B的发布和开源。据报道,这是一个具有320亿个参数的模型,其性能与DeepSeek-R1相当,具有6710亿个参数(激活了370亿个参数)。
“出色的开源技术可以吸引更多的声音,还可以吸引更多的公司和开发人员进行次要开发,这将有助于建立生态系统。” Doubao Big Model的技术人员告诉“日常经济新闻”的记者。
同样,王彭还认为,开源模型可以促进技术开发和创新,这不仅可以帮助大规模的公司扩大其影响力并在全球AI市场中分享,而且还吸引了更多的参与者加入生态系统的共同建设,从而降低了自己的R&D成本。
但是,有不同的声音。大型模型公司为名望或利润选择开源模型是真的吗? “如果开源技术比封闭的源技术要好,并且自由技术比充电要好,那么谁可以使用封闭的来源并充电?”工业和信息技术部信息和通信经济专家委员会成员潘·海林(Pan Helin)在接受《日常经济新闻报道》的采访时说。 “实际上,这是一个由DeepSeek表示的开源应用程序,它在绩效方面将其竞争对手联系起来。这导致许多大型模型选择了处理它的开源路径。开源无法为企业带来利润,但是它可以为用户带来互联网流量,互联网是国王,利润是第二。”
发表评论
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。