DeepSeek大模型突破达天才级别,引发AI舆论震动
最近,由DeepSeek在 - 深度国内模特公司中引起的公众舆论冲击使今年的春节成为了“最大的AI风味”。说到DeepSeek-R1是DeepSeek的主要标志性模型,许多行业内部人士对新闻记者表示高度赞赏。
1月28日,海洋的人工智能巨头开放AI首席执行官Sam Altman发表了一篇帖子,以应对DeepSeek带来的挑战:“ DeepSeek发起的R1具有深远的影响力。当然,我们将推出一个更好的模型,新的竞争对手也令人兴奋。
一家国内Top2 AI初创公司还向记者承认,他们感到同龄人给同龄人带来的压力:“我们将来会加快未来产品研发的观点。”
相比之下,产品中的快速迭代:在除夕,DeepSeek悄悄发布了开源的多模式模型Janus-Pro。 1月27日早些时候,DeepSeek应用程序已在Apple China和美国App Store App Store的最高下载排名,在美国下载列表中超过了Chatgpt。
“多模式测试是对人类世界和环境的认识。我相信DeepSeek目前会发布一种多式模式,并且必须具有自己的自信和自信和自信。” 1月28日,360个创始人周·洪(Zhou Hongyi)告诉《迅速新闻报道》,新闻记者:“中国模型技术复仇者都必须拥有DeepSeek的副本,因为这家公司及其创始人非常低,他们的技术能力和未来都非常低潜在客户被市场严重低估。”
“现在,硅谷称深索克为东方的神秘力量。中国AI的创造力不再是汽车。”周野说。
AI军事储备比赛进入了深水时期。有人认为,在大型工厂(例如字节,阿里,腾讯等)的周围下,AI初创公司将面临改组,无法逃脱合并和收购的命运,但似乎“ DeepSeek,谁尚不清楚”。 DeepSeek受欢迎程度的秘诀是什么?它给国内大型模型行业带来了什么灵感?
DeepSeek在哪里出色?
“ DeepSeek的高级管理层对商业化不感兴趣。我只想进行技术研究。这样的高度无法实现。”
一些认识DeepSeek的人向记者透露,他们采访了AI领域的一些才华,最终拒绝了自己的公司。他们之所以去DeepSeek,是因为他们有良好的科学研究氛围和一个真正的团队。
“从工资的角度来看,实际上,它们只是该行业的水平,但不是最高的。”他向记者承认:“如果有人说可能不会将人才密度与头部工厂进行比较。聪明,但是大型工厂的聪明人花费了太多的精力以至于无法超越技术。尽管大型工厂很高,但有很多许多内部斗争。
尽管在外界的眼中,DeepSeek似乎在一夜之间很受欢迎,但许多成就以前引起了行业的关注。在2024年,DeepSeek是首次在大型模型行业发动价格战,但并没有引起外界的注意。从那时起,智慧和字节殴打的随后触发了整个行业的降价趋势。
当时,DeepSeek并没有真正使其他人看到其力量。 2024年,智能频谱AI COO的张范(Zhang Fan)在接受采访时开玩笑:“我们是首个主流制造商。”当时,有人提醒人们,第一个降低价格的制造商实际上是DeepSeek,Zhang Fan说:“我所说的是在谈论主流制造商。
DeepSeek最值得注意的是,它大大降低了大型模型的开发成本。 1月20日,DeepSeek正式发布了推理Model R1。它的API(编程接口)服务的价格为每百万个输入(CI yuan)的标记,仅以1元(高速公路命中)/4元(无薪无偿),每百万美元每百万美元,每百万每百万美元,产出代币为16元。 DeepSeek的定价约为Meta的Llama 3-70B的七分之一,占GPT-4 Turbo的1-70。
因此,DeepSeek在AI行业中也被昵称为“ Pinduoduo”,高效率和低价背后的原因是什么?中国一家著名AI公司的主席向记者解释说,这主要是由于DS-V3的许多技术创新。首先,DeepSeek使用MOE架构(专家的混合物,混合专家模型)。通过将大型模型变成多个稀疏专家小型模型,并通过多个模型收敛以实现与传统模型相当的能力,从而有效地减少了计算。成本。
其次,DS-V3在培训方法中做出了重要的创新。 FP8混合精度训练约为常规BF16精度的1.6倍;同时,对平行流水线进行了优化,以提高训练和推理效率。这些优化和成功的培训将V3的培训成本降低到约550万美元。
在最新的DS-R1中,DeepSeek使用创新的GRPO(与群体相关策略的优化)来加强学习方法,而无需大量的人类标签数据库。通过允许模型独立生成和验证结果,R1表现出强大的推理能力。随着训练步骤的数量的增加,其链的长度(COT)正在增加,该模型在推理过程中甚至开始反思自我。
“ DeepSeek R1的成功意味着,如果基本模型具有足够强大的能力,它可以学会在增强的学习过程中自行推理。这就是为什么外国AI圈子中的人们大声疾呼AGI在看到DS-R1之后与我们如此接近。原因:因为R1证明具有强大能力的模型可以在没有人类的情况下进化,尽管此阶段的奖励仍然需要标签。
根据麻省理工学院的科学技术评论,DeepSeek R1使用类似于Chatgpt O1的“思维链”方法,该方法可以通过逐步处理查询来解决该问题。这可能是美国高端AI芯片出口控制带来的意外结果,迫使中国的创业公司“优先考虑效率”。
有趣的是,如果您询问DeepSeek自己的R1模型,Openai的特征是什么,DeepSeek的答案是创新点可能在“注意机制”和“参数效率”中。 R1在处理长期文本时更专注于关键部分(例如法律法律(例如合同中的条款),减少了计算金额,类似于“阅读时用荧光笔的关键段落的关键段落在阅读时阅读。“就参数效率而言,模型用于将模型分为多个“ sub -experts”,其结构类似于MOE(混合专家系统)。不同的任务激活了不同的部分,这不仅可以节省计算权力并改善效果(类似于“当您看医生时在部门的部分注册,找到心脏问题心脏问题心脏病专家,不必让普通医生从一开始就学习”))
DeepSeek自我评估,“ DeepSeek就像一家精品店,在特定领域更专业; Openai看起来像一家大型超市,一切都很高,但价格很高。”
为什么DeepSeek?
当涉及到DeepSeek时,创始人Liang Wenfeng是密不可分的。这位“邮政-85”企业家在局外人眼中也是媒体的焦点。
据公开报道,梁·温芬(Liang Wenfeng)从小就透露了他在数学领域的才华和利益。他曾经是大学入学考试。在智格大学学习期间,他与同学积累了市场数据,并探索了全自动交易。
在2008年的金融危机期间,他带领团队使用机器学习和其他技术来探索自动定量交易。 2015年,对冲基金建立了“神奇的量化”,资产管理的规模超过了2021年的1000亿大关。于2023年深入建立,重点是一般人工智能(AGI)的突破。
“一件令人兴奋的事情可能不会简单地用金钱来衡量。就像在家购买钢琴一样,一个人可以负担得起,另一个是因为有一群人渴望在上面播放音乐。”在公开采访中,梁·温芬本人曾经在他心中谈论过Agi(通用人工智能)。
在另一次采访中,他提到中国AI不能总是关注。 “我们经常说,中国人工智会在一两年之间存在差距,但是真正的差距(差距)是原始和模仿之间的区别。如果是这样。不要改变,中国只能是追随者,因此某些探索可以可以t逃脱。
他认为,NVIDIA的主要领导不仅是公司的努力,而且是整个西方技术界和工业的共同努力的结果。 “中国人工智学的发展也需要这样的生态学。技术界只有第二次新闻,因此中国必须站在技术的最前沿。
Liang Wenfeng没有准备就绪。根据幻想方的官方网站,它在2018年建立了AI的主要开发方向。
从2020年开始,幻想党投资了超过1亿元人民币,并涵盖了AI超级计算机“ Firefly One”的区域,这相当于篮球场。该平台以“任务级别的时间 - 共享共享”为核心概念,配备了强大的软件层支持:高性能运营商库(HFAI.NN),分布式培训通信框架(HFREDUCE),专用为了进行AI开发,原始的大容量高 - 带宽文件系统(3FS)允许AI模型从自由多个节点扩展,以进行大型平行训练。计算功率扩展增加了一倍。
Liang Wenfeng在接受采访时说,最早的卡至10,000张卡,这一过程逐渐发生,这主要是好奇心的“对AI容量边界的好奇心”。
“ DeepSeek在美国技术圈中最令人震惊的是,它在大型开源模型中取得了突破。” Kunlun Wanwei首席执行官Fang Han向新闻记者发表了评论:“过去,美国在基地的大型模型中具有绝对的优势。开发将基于DeepSeek。
“中国可以在大型模型中取代美国的统治地位,这非常关注美国。”方汉坦率地说。
美国AI创业公司的首席执行官的困惑相信,采访说,DeepSeek的模型是“疯狂的”。 “这些中国球队推出了一个疯狂的模型。API价格比GPT-4便宜10倍,甚至比Claude便宜15倍,Claude非常快,在某些基准测试中与GPT-4相当。更好的是,总共花费了500万美元的计算机预算,因此可以免费提供技术论文。
根据国家广播公司(NBC)的说法,美国总统特朗普在1月27日当地时间在佛罗里达州迈阿密举行的共和党会议上说,中国人工智能初创公司AI DeepSeek的AI技术向美国发出了“闹钟”。技术公司。 ,美国公司“需要专注于竞争以获胜”。
如何发酵“ DeepSeek效应”
DeepSeek的成功,Crit,AI硬件领导者。
1月27日,当地时间,纳斯达克股票(NASDAQ:NVDA)的股价下降了16.86%,至每股118.58美元,降至10月以来的最低点;总市场价值为2.90万亿美元,每天蒸发5900亿美元(约为5900亿美元(约合约5900亿美元)(大约约4.28万亿卢比),创造了历史上最大的单日股票市场的记录。
NVIDIA的暴跌还导致创始人Huang Renxun缩水了210亿美元。
DeepSeek在国际规模上的成功也为中国AI创业公司带来了“ DeepSeek效应”。
“我对AGI的判断是一场马拉松。目前,该技术尚未融合,计算能力是一个重要的影响因素。”国内AI Head Startup and Face Wall Smart Ceo的Li Dahai告诉记者。
他介绍了,就像DeepSeek一样,面条墙开发的MiniCPM-S系列也引入了自开发的稀释和稀疏解决方案。通过将激活函数替换为relu,并通过渐进的约束来改善大型模型的稀疏度。将美洲驼和微型PM提高到近90%,还可以在维持模型的原始水平的基础上有效地减少模型推理的费用。
“ DeepSeek的成功表明,中国人工智能公司已经进入了世界上第一个梯队。尽管我们必须认识到,中国和美国确实在人工智能方面有原始的差距,但R1的发行将极大地影响该行业的发展。2025年。在这一年中,中国在AI领域的创新非常值得期待。
方韩认为,谈论中国完全超越美国的人工智能还为时过早,但是DeepSeek的表现表明,中国的AI在发展领域确实很明显。中国是最大的AI工程师团队,也是最多的AI论文。 “在AI领域,中国和美国的优势比其他国家巨大。”
“如果双方真正坐在地面上,您仍然需要解决计算电源卡颈的问题。”方汉坦率地说:“但是我希望在2 - 3年内完全解决这个问题。实施您追逐我并公平地竞争。”
发表评论
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。