APP下载
APP二维码
联系我们
APP二维码
返回

DeepSeek-V3发布:6710亿参数MoE模型在数学能力上领先行业

来源:网络   作者:   日期:2025-01-06 17:17:19  

这家独立于大模型“六小虎”格局、业界不可忽视的公司,发布了新一代MoE模型DeepSeek-V3首个版本,并同步开源。 V3 有 6710 亿个参数,其中 370 亿个激活参数,并在 14.8 万亿个代币上进行了预训练。

从DeepSeek公开披露的信息来看,V3在知识任务(MMLU、MMLU-Pro、GPQA、SimpleQA)上接近目前表现最好的Claude-3.5-Sonnet-1022,并且在方面也略优于后者的代码能力。在数学能力方面,V3明显领先于其他开源和闭源模型,包括Qwen2.5 72B-Inst、LIama3.1 405B-Inst和GPT-4o 0513。

这已经是一个足够好的开源模型了,但真正引起广泛关注的是 DeepSeek 在技术论文中表示,DeepSeek-V3 模型的总训练成本为 557.6 万美元,完整训练消耗了 278.8 万个 GPU小时,几乎是同等性能水平的模型训练所需时间的十分之一。这使得它再次在国内外流行起来。

事实上,2024年第一场大型模型API价格战就是由DeepSeek打响的。当时其“MoE架构+MLA(Multi-head Latent Attention)技术”对于降低大型模型的使用成本起到了重要作用。现在看来,这一创新在DeepSeek手中完成了稳定的延续。

此时,同行业的大型模型厂商对于这家作风低调、产量稳定的公司需要更加谨慎。不知道什么时候才会推出商业惊喜。

拼多多复制拼多多__拼多多复制是什么意思

“AI拼多多”模式能否复制?

根据海外研究机构 SemiAnalysis 的数据,OpenAI GPT-4 的训练成本高达 6300 万美元,而 DeepSeek-V3 还不到前者的十分之一。这让业界首先开始思考这种低成本模式是否可以复制。

英伟达高端GPU显卡在中国大陆被禁以来,算力不足一直是国内AI企业面临的一大难题。

与微软、Meta、特斯拉等国外科技巨头动不动采购10万张NVIDIA显卡搭建计算中心训练AI模型相比,国内拥有1万张以上显卡的企业屈指可数。 DeepSeek背后的开发公司欢放就是其中之一。 2023年,欢放创始人梁文峰在接受36氪专访时表示,“公司已经储备了1万张Nvidia A100显卡”。

此次DeepSeek-V3的特别之处在于,它仅使用少量的卡即可完成模型训练。

根据官方论文,DeepSeek-V3 训练使用了 2048 个 NVIDIA H800 GPU(注:H800GPU 是 H100 GPU 被禁用后针对中国大陆推出的特殊版本,性能只有一半左右)。这些GPU通过NVIDIA高速互联网网络NVLink与InfiniBand连接,构建AI计算集群。

作为性能基准模型,Meta 的开源模型 Llama-3.1(模型参数数量与训练数据大致相同)使用了超过 16000 个 NVIDIA H100 GPU,业界估计训练成本高达数百数百万美元。

Meta AI科学家田元东在X(原Twitter)平台上称赞DeepSeek V3的低成本训练方法是“黑科技”。特斯拉前人工智能和自动驾驶视觉总监、知名AI研究学者Andrej Karpathy转发了DeepSeek的论文并评论道,“如果DeepSeek V3能够通​​过各种评估,就证明可以用有限的资源开发出性能。强大的大型语言模型是可能的”。

当前,降低AI模型开发成本已成为最重要的行业趋势之一。过去一年,OpenAI仍未发布业界期待已久的下一代模型GPT-5。而是发布了GPT-4o、4o mini等一系列低成本轻量化型号。 Sam Altman还表示,部署和维护先进的AI模型导致OpenAI的运营成本持续上升。无论是为了公司的持续运营,还是为了实现AI普及到所有人的目标,都需要进一步缩减。成本。

对于中国来说,先进算力有限是国内AI企业必须直面的现实。

2023年开始,中国将掀起智能计算中心基础设施建设热潮。但由于目前国产GPU单卡性能不足,与NVIDIA产品相比至少存在1~2代的差距。在中国建设智能计算中心时,需要堆叠更多的GPU才能达到所需的计算能力。这不仅增加了施工难度,还进一步增加了成本。一位参与过国内智能计算中心建设的AI公司负责人曾对记者表示,目前真正有能力建设万卡智能计算中心的厂商少之又少。国内算力建设的首要目标仍然是增加供给、保证“可用性”。

DeepSeek的“AI拼多多”模型为行业提供了在算力有限的情况下降低模型成本的可能。

据DeepSeek开发团队介绍,V3模型采用了模型压缩、专家并行训练、FP8混合精度训练等一系列创新技术来降低成本。这些技术对于行业探索低成本培训模式具有参考意义,但并不容易复制。

国内某AI芯片公司创始人告诉记者,DeepSeek此次采用的FP8训练技术是一大亮点。 FP8 是一种使用 8 位浮点表示的格式。与传统的16位(FP16)和32位(FP32)浮点数相比,FP8是一种新兴的低精度训练方法,可以减少数据表示所需的数据数量。位数。显着减少内存占用和计算要求。目前,除了DeepSeek之外,零千等国内公司和Google、Inflection AI等国外公司也已将该技术引入到模型训练和推理中。

上述芯片公司创始人表示,FP8的引入还可能导致某些情况下模型计算精度不够,导致性能不稳定,需要开发团队进一步优化。 “未来FP8预计将成为行业趋势,更多算力芯片厂商将提供原生FP8算力。”

另一位GPU芯片公司CEO则认为,由于DeepSeek V3是DeepSeek的第三代模型,模型开发本身涉及大量的计算资源和数据支持,而Magic Square可以为其计算基础设施预留数万张Nvidia显卡,这对它来说非常重要。这对很多中小型团队或公司来说是一个障碍。

但在他看来,最核心、最难复制的就是人才储备。 DeepSeek核心架构所采用的技术创新门槛非常高,无论是早期的开发还是后期的调优升级都需要人才积累。

DeepSeek在人才储备方面也有独到之处。据创始人梁文峰此前接受采访时透露,DeepSeek V2模型开发团队中没有海外归来的人员。他们都是当地的一群“顶尖大学的应届毕业生,还有未毕业的博士4、博士5的实习生,还有一些毕业生”。 “才几岁的年轻人”,近日有消息称,小米以千万年薪聘请了 DeepSeek 研究员、V2 模型开发团队成员罗福利,直接证明了这些年轻人才的价值。

梁文峰表示,顶尖人才在中国被低估,也正是因为DeepSeek“做最难的创新”,创新对顶尖人才有着特殊的吸引力。

科技墙背后的商业想象力

总体来说,除了算力基础和训练技巧之外,DeepSeek-V3的核心技术亮点仍然是高效的架构设计,也就是V2中已经验证的MoE+MLA。

DeepSeekMoE采用更细粒度的专家分配和共享专家机制。每个MoE层包含1个共享专家和256个路由专家,保证高效计算; MLA通过低秩压缩技术减少推理过程中的Key-Value缓存,提高推理效率。

同时,DeepSeek-V3首次引入了无辅助损耗的负载均衡策略。传统方法中,强制负载均衡会导致模型性能下降,但通过为每个专家引入偏差项并动态调整路由决策,可以保证专家负载均衡。

事实上,大型模型的架构设计与其想要达到的目标高度相关,所以不能笼统地讨论其他模型厂商将如何跟进这套技术策略。

但如果看同一个目标,一位大型模型行业从业者告诉界面新闻,“萌+MLA”虽然很难,但可以复制。在V3中,比较困难的是没有辅助损失的负载均衡策略。因为它需要一个训练有素的MoE模型作为前提。 “这更多取决于模型训练的能力,即使DeepSeek的人一步步教你,你也不一定能做到。”

面对DeepSeek-V3的火爆,也有人建议应该冷静对待,不要过度神话。

一位大型AI模型的投资者表示,DeepSeek-V3确实是现在最好的开源模型。尤其是在中国,其最直接的标杆就是统一千文车型系列。从技术实现的角度来看,其总参数越大,模型概念越准确,激活量越小,推理成本越低。

然而,GPT-4发布近两年后,整个开源模型框架和算法体系也在同步迭代。他认为DeepSeek-V3所达到的效果可以说是水到渠成。

相比之下,更值得思考的是DeepSeek的业务触角将进一步延伸到哪些领域。

目前,DeepSeek仍然主要以开源模型API接口为开发者和企业服务。在更具体的ToB(企业侧)和ToC(客户侧)应用场景中,尚未做出明确的动作,但在某些层面上有迹可循。

据记者了解,在第三方招聘平台上,浣花良方在多个系统和算法研发岗位以及Web和Web端发布了《DeepSeek-客户端研发》《DeepSeek C端产品可视化指南》。面向移动端的AI产品“UI视觉设计师”等

其中,客户端开发岗位要求负责DeepSeek iOS和Android的开发。视觉产品帖在“预期特点”中描述,“能够在某个大主题的背景下进行细化创作。比如我们的App可以是交互型的人文关怀,或者是突出科技感,或者是办公效率的方向可能存在偏差。”

这意味着DeepSeek可能已经在准备自己的C端产品,并且有明确的应用方向。

从模型角度来看,DeepSeek-V3作为开源模型,无论是数学能力还是编码能力都已经非常突出。完成产品端能力后,可能会很快在相关领域形成自己的独特优势。此外,公司对AGI(通用人工智能)的目标有明确的追求,团队一定会持续改进基础模型的性能。

换句话说,虽然DeepSeek最终的决定还不明朗,但其自身的模型实力和成本优势,无论进入哪个领域,都可能会给同赛道的公司带来压力。

“从根本上来说,DeepSeek对于那些还没有找到核心场景的大型模型公司来说是一个巨大的威胁。”上述投资人表示。

分类: 股市
责任编辑: admin
版权声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。

相关文章:

发表评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。