杭州Deepseek发布DeepSeek-v3模型,性能媲美GPT-4o,成本降低10倍
12月26日,Deepseek发布了新系列模型DeepSeek-v3,一夜之间霸占开源模型榜单,性能与全球顶级闭源模型GPT-4o、Claude-3.5-Sonnet看齐。
更令海外AI界震惊的是,该模型的训练成本仅为600万美元,成本降低10倍,资源利用效率极高。一家AI投资机构负责人直言,DeepSeek发布的53页技术论文是黄金。
据了解,Deepseek的中文名称为“深搜”,是量化巨头魔方量化旗下子公司。作为隐形AI巨头,Magic Square拥有1万颗NVIDIA A100芯片。去年4月,Magic Square宣布成立新组织,集中资源和力量探索AGI本质,一年多来进展迅速。
Deepseek再次进化
今年5月,Deepseek发布了名为DeepSeek V2的开源模型,因其前所未有的性价比而在AI行业名声大噪。然而仅仅半年多后,Deepseek又再次进化。
12月26日,Deepseek表示,新系列模型DeepSeek-v3首个版本上线并同步开源。该模型的多项评估结果超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并且在性能上有所提升。它与世界顶级闭源模型GPT-4o和Claude-3.5-Sonnet不相上下。
例如,在美国数学竞赛(AIME 2024,MATH)和全国高中数学联赛(CNMO 2024)中,其在百科知识、长文本、编码、数学、语文能力等方面的表现超越其他模型,尤其是数学方面。 DeepSeek-V3 显着优于所有开源和闭源模型。
同时,通过算法和工程创新,DeepSeek-V3的语音生成速度从20 TPS大幅提升至60 TPS,相比V2.5模型提升了三倍。
值得注意的是,Deepseek将API服务价格调整为每百万个输入代币0.5元(缓存命中)/2元(缓存未命中),每百万个输出代币8元。
Deepseek还决定为新模式设置45天优惠价格试用期:即日起至2025年2月8日,DeepSeek-V3的API服务价格仍为0.1元(缓存命中)/每百万输入代币1元(缓存未命中),每百万输出代币2元。
震惊海外AI界
最让海外AI界震惊的是,其性能表现突出的同时,模型的训练成本却大幅降低。
天使投资人 Balaji 表示,DeepSeek 的新开源模型训练成本仅为 560 万美元,与 GPT 4 和 Claude 3.5 Sonnet 相当。如果属实,成本将降低10倍以上。
Open AI 的创始成员之一、李飞飞的得意门生安德烈·卡帕蒂 (Andrej Karpathy) 表示:“今天,DeepSeek 发布,开放前沿的 LLM 权重,让它看起来很简单,而其培训预算却非常低( 2048 个 GPU 运行 2 个月,总成本 600 万美元)。”
Andrej Karpathy分析称,根据以往的经验,具有这种能力的大型模型通常需要接近16,000个GPU,而目前业界大多数模型使用约100,000个GPU。例如,Llama 3 405B模型消耗了3080万GPU小时,而DeepSeek-V3仅使用了280万GPU小时,计算需求降低了11倍。
“这是否意味着尖端的 LLM 不需要大型 GPU 集群?不,但你必须确保不会浪费你拥有的资源,这看起来很好地证明了还有很多工作要做“在数据和算法方面。”Andrej Karpathy 感叹道。
轻子AI创始人贾扬清表示,2019年曾与Deepseek团队进行过沟通,希望向他们推销AI云解决方案。并试图说服他们,“不需要复杂的云虚拟化,只需要容器和高效的调度器;需要像NFS这样的通用存储,不需要太花哨,但一定要快。”这些意见市场上有很多意见。这对参与者来说是新鲜事,需要一些说服力。
“但 Deepseek 团队好心地告诉我,他们已经这样做很多年了。他们还请他帮助无附加条件地向大学研究实验室免费捐赠计算资源。”贾扬清表示,从某种程度上来说,他们取得的巨大成就是多年专业知识的结果,但这一点被很多人忽视了。
环泉量化CEO陆正哲在微信朋友圈表示,“看到杨庆老师的话,我有点感动。”
前英伟达机器学习专家 Bojan Tunguz 表示,所有高端半导体的出口禁令实际上可能会以可以想象的“最糟糕”的方式产生反作用。它们似乎迫使中国研究人员变得比平时更聪明、更高效。这似乎也证实了我自己的假设,即我们距离人工智能机器学习部分的最佳算法还有很长的路要走。
《AI世界的拼多多》
Deepseek的中文名称是“深度搜索”,是量化巨头Magic Square Quantitative的子公司。在硅谷,DeepSeek被称为“来自东方的神秘力量”。
作为隐形的AI巨头,慧方拥有1万颗NVIDIA A100芯片,而国内拥有1万颗以上GPU的公司不超过5家。在中国七家大型模型初创公司中,Deepseek 是最不引人注目的一家。
去年4月,Magic Square宣布成立新组织,集中资源和力量探索AGI本质,一年多来进展迅速。当时,焕芳表示,多年来,公司坚持将大部分收入投入人工智能领域,打造领先的AI硬件基础设施,进行大规模研究,探索人类未知的奥秘。
“我们相信,几乎所有的创新都是从大胆的尝试和点点滴滴的积累中诞生的。我们会充分、持续地投入,不做温和的事情,用最长远的眼光来回答最大的问题。”
成立一年后,deepseek发布了名为DeepSeek V2的开源模型,提供了前所未有的成本效益:推理成本降至每百万代币仅1元。随后,字节跳动、腾讯、百度、阿里巴巴等纷纷效仿,在国内打响了大型机型的价格战。 DeepSeek也很快被称为AI行业的“拼多多”。
据了解,环泉量化和Deepseek创始人梁文峰是一位极端的80后技术理想主义者。他从寰拳时代就开始在幕后研究技术。在DeepSeek时代,他仍然像所有研究者一样延续着低调的作风。 ,每天“看论文、写代码、参加小组讨论”。
梁文峰在接受Undercurrent采访时表示,我们一方面降低了价格,因为我们正在探索下一代车型的结构,成本先下来了。另一方面,我们也觉得API和AI都应该具有包容性。 ,每个人都买得起的东西。
“过去很多年,中国企业已经习惯了别人进行技术创新,我们用它们来将应用变现,但这并不是理所当然的事情。在这一波浪潮中,我们的出发点不是顺势而为。”赚钱,而是要更上一个台阶,推动整个生态系统的发展。”梁文峰说。
发表评论
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。