一天登顶中美App Store免费榜!DeepSeek-R1开源模型引爆全球AI圈,或寻另一制胜之道
这次DeepSeek的根本原因之一是最新的开源模型DeepSeek-R1。根据该公司的说法,就数学,代码,自然语言推理和其他任务而言,DeepSeek-R1绩效可用于OpenAI O1的官方版本,并通过MIT许可协议来支持免费的商业使用,任意修改和衍生产品开发。
可以说,DeepSeek及其大型模型证明,除了“强大奇迹”的扩展定律外,大型AI模型可能还有另一种获胜方式,“ DeepSeek Law”:调整以改变大型模型的基础设施大型模型 +有效利用有限的资源。
球“向世界的开源礼物之一”
DeepSeek的许多选择与大型国内模型初创公司不同。例如,牢固选择开源路线,并制作所有代码,模型重量和训练日志,而DeepSeek-R1自然也不例外。
对于DeepSeek-R1,许多AI行业领导者不乏美丽。
“ DeepSeek-R1是我见过的最令人惊叹,最令人印象深刻的突破之一,它仍然是开源的。可以说这是给世界的礼物。” A16Z顶级风险投资的创始人Marc Andreesen描述了这一模型。
“我们生活在这样一个时代。一家非美国公司允许Openai的最初意图继续,也就是说,这是一项真正的开放和赋予所有人权力的尖端研究。”它表明RL(增强学习)飞轮可以发挥作用,并可以不断增长的OSS(开源软件)项目。
Meta的首席科学家Yann Lecun说:“开源模型超过了专有模型。Reeepseek从开放研究和开源中受益匪浅。他们根据其他人的工作提出了新的想法和创新。这项工作是开放的。和开源,每个人都可以从中受益。
以下是全球AI技术人员引起的“ DeepSeek Reapup”:
例如,Pan Jiayi博士和加州大学伯克利分校的两名研究人员在游戏倒计时中重新出现了DeepSeek R1-Zero。该团队验证了通过RL,3B的基本语言模型也可以进行自我验证和搜索,结果非常好。更重要的是,这种重新出现的成本仅小于30美元。
全球最大的开源平台Huggingface团队还恢复了DeepSeek R1的所有管道。重新磨练之后,所有培训数据,培训脚本等将是开源的。
“面对破坏性的技术,封闭的来源形成的护城河很短。即使OpenAI已关闭,也无法阻止他人超越。” DeepSeek的创始人Liang Wenfeng解释了选择开源的原因。对于技术人员而言,它并没有丢失,这是非常实现的。重要的。”
降低技术成本会创建“ AI Price Butcher”
当涉及到DeepSeek模型时,另一个经常提到的形容词应该是“质量优质和便宜”。
最新的DeepSeek-R1 API服务的价格为“百万富翁1元(Cache Hits)/4元(Cache noce)的标记为1元。产出令牌为16元,每百万,输出API价格仅为OpenAI O1 3 3%的3%。
这不是DeepSeek首次提高“价格屠夫刀”。
去年5月,DeepSeek已经带来了第二代Moe Big Model DeepSeek-v2,并且“价格屠夫”和“ AI Fighting Duoduo”的标题是红色绩效比较GPT-4,但价格是在价格中,价格是在1中。元百万令牌和输出2元(32K上下文),仅占GPT-4的百分之一。
此后,诸如Bytes,Baidu,Tencent,Alibaba和其他互联网工厂之类的主要互联网制造商无法阻止,他们正式宣布了大型型号的价格,该价格已在国内模型中发起了价格战。
在低价之后,降低“技术令人眼花技巧”成本的成本仍然是密不可分的。
一个多月前,DeepSeek-V3在该行业引起了极大的关注。关键原因之一是培训前成本较低 - 该大型型号具有671B,在2个月的训练阶段只有2048年的GPU培训。只花557.6万美元。同时,DeepSeek-V3具有足够的性能比其他前沿模型更好。
在此之后,DeepSeek-V3利用长期的潜在关注(MLA)进行高效推理和DeepSeekmoe进行经济培训。研发团队已经证明,多型预测(MTP)有利于提高模型性能,可用于推理可以通过推理加速的投机解码。在后培训方面,DeepSeek V3引入了一种创新的方法,以将推理能力从长时间思考链模型(DeepSeek R1)延伸到标准模型。尽管显着提高了推理性能,但它仍保持了DeepSeek V3的输出样式和长度控制。
奏AI应用程序普及前奏
“ DeepSeek的目标是实现AGI,而不仅仅是短期商业化。” Liang Wenfeng在采访中强调。
DeepSeek的价格降低不是要吸引用户,而是因为成本下降和追求包容性AI。他认为,随着经济发展,中国也应成为技术创新的贡献者,而不仅仅是应用创新的追随者。
目前,AI应用程序的渗透率仍然很低,而且该行业还在较早。 Citic Securities指出,与GPT4模型相比,DeepSeek模型的参数少的量也意味着较低的推理成本,而推理成本的降低将是AI应用程序普及的前奏。本质
它进一步指出,诸如Pro,DeepSeek-V3和其他国内模型之类的国内模型不断发布。就模型功能而言,国内模型接近海外尖端模型的水平,例如GPT-4,Claude,Llama等,就文本和知识能力而言。多模式能力逐渐完成。在非O1技术下,逻辑和代码功能已达到可用水平。就价格而言,国内API Million代币产量的价格通常在10元之内,即GPT-4O的1/3,甚至更低。
预计模型的模型将继续增加,国内AI应用程序依赖于丰富的生态和成熟的流量,并有望加速在各个领域的着陆。其中,预计代理模型将成为所有具有更长任务流程,更好的场景理解和更高自主权的互联网用户的数字助手。
值得一提的是,据报道,Meta Generation AI集团和基础设施团队已经开设了四间战斗室来学习DeepSeek的原则。这些动员团体中的两个试图了解高飞行器如何降低训练和跑步的成本。第三个元研究团队试图弄清楚高飞行器可以使用哪些数据来培训其模型。第四战室正在考虑基于DeepSeek模型属性的元模型重建的新技术 -
这也可能意味着,巨人肩膀上的深索人已成为一个巨人,他们有望支持更多的人。
发表评论
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。