APP下载
APP二维码
联系我们
APP二维码
返回

国产大模型DeepSeek-R1发布,性能比肩OpenAI o1,强化学习技术助力模型推理能力提升

来源:网络   作者:   日期:2025-01-21 11:15:19  

1月20日,DeepSeek正式发布DeepSeek-R1,并同步开源模型权重。据介绍,DeepSeek-R1在后训练阶段大规模使用了强化学习技术,大大提高了模型在只有很少标记数据的情况下的推理能力。在数学、编码、自然语言推理等任务中,性能与 OpenAI o1 官方版本相当。

根据其公布的测试数据,DeepSeek-R1 在美国 AIME 2024、MATH-500 和 SWE-bench Verified 测试中得分高于 OpenAI o1(小 K 注:前两项测试侧重于数学能力,SWE-bench Verified 旨在评估人工智能模型解决现实世界软件问题的能力)。

image

_暗战经典视频_《暗战》

同日,Kimi全新SOTA模型——k1.5多模态思维模型上线。在长CoT模式下,Kimi k1.5的数学、编码、多模态推理能力也达到了Longthink SOTA模型OpenAI o1正式版的水平。官方表示,这应该是全球第一次有除 OpenAI 之外的公司实现 o1 正式版的多模态推理性能。 Kimi技术团队第一时间准备了详细的技术报告。

在短CoT模式下,Kimi k1.5的数学、编码、视觉多模态和通用能力均大幅超越全球短思维SOTA模型GPT-4o和Claude 3.5 Sonnet,领先550%。

image

image

其他国产大型车型也表现不俗。 1月15日,MiniMax发布了全新开源模型系列Minimax-01。在多项标准和内部基准测试中,Minimax-01的性能可与GPT-4o和Claude3.5-Sonnet等顶级型号相媲美。该模型相当不错,尤其是在长上下文处理方面。

OpenAI分别于2024年5月、9月和12月发布了GPT-4o、GPT-o1(包括o1-preview和o1-mini,o1正式版推迟到2024年12月)和GPT-o3。强大的模型是o3,具有出色的推理能力,对科学知识的掌握更好,编码能力更强。

o1 紧随其后,在编码、数学和写作方面表现出色,其多模式功能支持图像上传,使其能够将推理应用于视觉,以获得更详细和有用的响应。

以DeepSeek为代表的国内大模型团队力求匹配最先进大模型的性能,定价展现极致性价比。

DeepSeek-R1 API服务定价为每百万输入令牌1元(缓存命中)/4元(缓存未命中);每百万产出代币16元。

相比之下,GPT-o1模型每百万个输入代币的成本为15美元(约合人民币110元),每百万个输出代币的成本为60美元(约合人民币438元)。 OpenAI 目前最便宜的型号是 GPT-4o mini,售价为每百万个输入代币 10 美元(约合人民币 73 元),每百万个输出代币 20 美元(约合人民币 146 元)。

国产大机型呼唤国产算力

国内外大型模型厂商在短时间内互相追逐、快速迭代,这意味着大型模型厂商对算力的需求不断增加。

火山引擎智能算法负责人吴迪此前表示,字节跳动综合考虑计算资源储备、未来市场使用情况、模型成本降低等因素,预计2027年豆宝每日Token消耗将突破100万亿,即100万亿现在。不止次数。

1月20日消息,据芜湖市生态环境局官网消息,字节跳动(抖音集团)旗下芜湖江东明易科技有限公司拟建设火山引擎长三角计算中心项目安徽芜湖项目环境影响评价文件已于近日受理,正在实施前置审批公示。该项目总投资80亿元,设计数量21824个服务器机柜、236个网络机柜、一座220kV变电站。

此前有消息称,小米正在自建GPU万卡集群,并大规模投资大型AI模型。

东莞证券此前表示,未来,随着字节、幻方、小米等国内厂商积极布局AI领域,国产大型机型有望快速崛起,带动国内算力需求增长,推动国内算力基础设施建设。我国国产算力产业链有望迎来发展机遇。

上海证券也发布研报称,以字节为代表的国内大型机型的崛起,以及小米等玩家的进入,有望带动国内互联网企业在算力端的支出。国内算力军备竞赛刚刚开始,国内算力厂商迎来发展机遇。

东方证券表示,算力建设的可持续性至关重要。在此背景下,服务器和液冷制造商、PCB制造商等有望受益。此外,数据存储和传输能力需求的持续上升,为存储、光模块、光芯片等企业创造了更多的市场机会,促使整个产业链不断优化升级,以满足日益增长的AI算力需求。

分类: 股市
责任编辑: admin
版权声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。

发表评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。