DeepSeek大模型突破达天才级别，引发AI舆论震动

来源：网络作者：日期：2025-01-29 09:23:28

最近，由DeepSeek在 - 深度国内模特公司中引起的公众舆论冲击使今年的春节成为了“最大的AI风味”。说到DeepSeek-R1是DeepSeek的主要标志性模型，许多行业内部人士对新闻记者表示高度赞赏。

1月28日，海洋的人工智能巨头开放AI首席执行官Sam Altman发表了一篇帖子，以应对DeepSeek带来的挑战：“ DeepSeek发起的R1具有深远的影响力。当然，我们将推出一个更好的模型，新的竞争对手也令人兴奋。

一家国内Top2 AI初创公司还向记者承认，他们感到同龄人给同龄人带来的压力：“我们将来会加快未来产品研发的观点。”

相比之下，产品中的快速迭代：在除夕，DeepSeek悄悄发布了开源的多模式模型Janus-Pro。 1月27日早些时候，DeepSeek应用程序已在Apple China和美国App Store App Store的最高下载排名，在美国下载列表中超过了Chatgpt。

“多模式测试是对人类世界和环境的认识。我相信DeepSeek目前会发布一种多式模式，并且必须具有自己的自信和自信和自信。” 1月28日，360个创始人周·洪（Zhou Hongyi）告诉《迅速新闻报道》，新闻记者：“中国模型技术复仇者都必须拥有DeepSeek的副本，因为这家公司及其创始人非常低，他们的技术能力和未来都非常低潜在客户被市场严重低估。”

“现在，硅谷称深索克为东方的神秘力量。中国AI的创造力不再是汽车。”周野说。

AI军事储备比赛进入了深水时期。有人认为，在大型工厂（例如字节，阿里，腾讯等）的周围下，AI初创公司将面临改组，无法逃脱合并和收购的命运，但似乎“ DeepSeek，谁尚不清楚”。 DeepSeek受欢迎程度的秘诀是什么？它给国内大型模型行业带来了什么灵感？

对话周鸿祎、方汉：DeepSeek能否改写AI战局？_对话周鸿祎、方汉：DeepSeek能否改写AI战局？_

DeepSeek在哪里出色？

“ DeepSeek的高级管理层对商业化不感兴趣。我只想进行技术研究。这样的高度无法实现。”

一些认识DeepSeek的人向记者透露，他们采访了AI领域的一些才华，最终拒绝了自己的公司。他们之所以去DeepSeek，是因为他们有良好的科学研究氛围和一个真正的团队。

“从工资的角度来看，实际上，它们只是该行业的水平，但不是最高的。”他向记者承认：“如果有人说可能不会将人才密度与头部工厂进行比较。聪明，但是大型工厂的聪明人花费了太多的精力以至于无法超越技术。尽管大型工厂很高，但有很多许多内部斗争。

尽管在外界的眼中，DeepSeek似乎在一夜之间很受欢迎，但许多成就以前引起了行业的关注。在2024年，DeepSeek是首次在大型模型行业发动价格战，但并没有引起外界的注意。从那时起，智慧和字节殴打的随后触发了整个行业的降价趋势。

当时，DeepSeek并没有真正使其他人看到其力量。 2024年，智能频谱AI COO的张范（Zhang Fan）在接受采访时开玩笑：“我们是首个主流制造商。”当时，有人提醒人们，第一个降低价格的制造商实际上是DeepSeek，Zhang Fan说：“我所说的是在谈论主流制造商。

DeepSeek最值得注意的是，它大大降低了大型模型的开发成本。 1月20日，DeepSeek正式发布了推理Model R1。它的API（编程接口）服务的价格为每百万个输入（CI yuan）的标记，仅以1元（高速公路命中）/4元（无薪无偿），每百万美元每百万美元，每百万每百万美元，产出代币为16元。 DeepSeek的定价约为Meta的Llama 3-70B的七分之一，占GPT-4 Turbo的1-70。

因此，DeepSeek在AI行业中也被昵称为“ Pinduoduo”，高效率和低价背后的原因是什么？中国一家著名AI公司的主席向记者解释说，这主要是由于DS-V3的许多技术创新。首先，DeepSeek使用MOE架构（专家的混合物，混合专家模型）。通过将大型模型变成多个稀疏专家小型模型，并通过多个模型收敛以实现与传统模型相当的能力，从而有效地减少了计算。成本。

其次，DS-V3在培训方法中做出了重要的创新。 FP8混合精度训练约为常规BF16精度的1.6倍；同时，对平行流水线进行了优化，以提高训练和推理效率。这些优化和成功的培训将V3的培训成本降低到约550万美元。

在最新的DS-R1中，DeepSeek使用创新的GRPO（与群体相关策略的优化）来加强学习方法，而无需大量的人类标签数据库。通过允许模型独立生成和验证结果，R1表现出强大的推理能力。随着训练步骤的数量的增加，其链的长度（COT）正在增加，该模型在推理过程中甚至开始反思自我。

“ DeepSeek R1的成功意味着，如果基本模型具有足够强大的能力，它可以学会在增强的学习过程中自行推理。这就是为什么外国AI圈子中的人们大声疾呼AGI在看到DS-R1之后与我们如此接近。原因：因为R1证明具有强大能力的模型可以在没有人类的情况下进化，尽管此阶段的奖励仍然需要标签。

根据麻省理工学院的科学技术评论，DeepSeek R1使用类似于Chatgpt O1的“思维链”方法，该方法可以通过逐步处理查询来解决该问题。这可能是美国高端AI芯片出口控制带来的意外结果，迫使中国的创业公司“优先考虑效率”。

有趣的是，如果您询问DeepSeek自己的R1模型，Openai的特征是什么，DeepSeek的答案是创新点可能在“注意机制”和“参数效率”中。 R1在处理长期文本时更专注于关键部分（例如法律法律（例如合同中的条款），减少了计算金额，类似于“阅读时用荧光笔的关键段落的关键段落在阅读时阅读。“就参数效率而言，模型用于将模型分为多个“ sub -experts”，其结构类似于MOE（混合专家系统）。不同的任务激活了不同的部分，这不仅可以节省计算权力并改善效果（类似于“当您看医生时在部门的部分注册，找到心脏问题心脏问题心脏病专家，不必让普通医生从一开始就学习”））

DeepSeek自我评估，“ DeepSeek就像一家精品店，在特定领域更专业； Openai看起来像一家大型超市，一切都很高，但价格很高。”

为什么DeepSeek？

当涉及到DeepSeek时，创始人Liang Wenfeng是密不可分的。这位“邮政-85”企业家在局外人眼中也是媒体的焦点。

据公开报道，梁·温芬（Liang Wenfeng）从小就透露了他在数学领域的才华和利益。他曾经是大学入学考试。在智格大学学习期间，他与同学积累了市场数据，并探索了全自动交易。

在2008年的金融危机期间，他带领团队使用机器学习和其他技术来探索自动定量交易。 2015年，对冲基金建立了“神奇的量化”，资产管理的规模超过了2021年的1000亿大关。于2023年深入建立，重点是一般人工智能（AGI）的突破。

“一件令人兴奋的事情可能不会简单地用金钱来衡量。就像在家购买钢琴一样，一个人可以负担得起，另一个是因为有一群人渴望在上面播放音乐。”在公开采访中，梁·温芬本人曾经在他心中谈论过Agi（通用人工智能）。

在另一次采访中，他提到中国AI不能总是关注。 “我们经常说，中国人工智会在一两年之间存在差距，但是真正的差距（差距）是原始和模仿之间的区别。如果是这样。不要改变，中国只能是追随者，因此某些探索可以可以t逃脱。

他认为，NVIDIA的主要领导不仅是公司的努力，而且是整个西方技术界和工业的共同努力的结果。 “中国人工智学的发展也需要这样的生态学。技术界只有第二次新闻，因此中国必须站在技术的最前沿。

Liang Wenfeng没有准备就绪。根据幻想方的官方网站，它在2018年建立了AI的主要开发方向。

从2020年开始，幻想党投资了超过1亿元人民币，并涵盖了AI超级计算机“ Firefly One”的区域，这相当于篮球场。该平台以“任务级别的时间 - 共享共享”为核心概念，配备了强大的软件层支持：高性能运营商库（HFAI.NN），分布式培训通信框架（HFREDUCE），专用为了进行AI开发，原始的大容量高 - 带宽文件系统（3FS）允许AI模型从自由多个节点扩展，以进行大型平行训练。计算功率扩展增加了一倍。

Liang Wenfeng在接受采访时说，最早的卡至10,000张卡，这一过程逐渐发生，这主要是好奇心的“对AI容量边界的好奇心”。

“ DeepSeek在美国技术圈中最令人震惊的是，它在大型开源模型中取得了突破。” Kunlun Wanwei首席执行官Fang Han向新闻记者发表了评论：“过去，美国在基地的大型模型中具有绝对的优势。开发将基于DeepSeek。

“中国可以在大型模型中取代美国的统治地位，这非常关注美国。”方汉坦率地说。

美国AI创业公司的首席执行官的困惑相信，采访说，DeepSeek的模型是“疯狂的”。 “这些中国球队推出了一个疯狂的模型。API价格比GPT-4便宜10倍，甚至比Claude便宜15倍，Claude非常快，在某些基准测试中与GPT-4相当。更好的是，总共花费了500万美元的计算机预算，因此可以免费提供技术论文。

根据国家广播公司（NBC）的说法，美国总统特朗普在1月27日当地时间在佛罗里达州迈阿密举行的共和党会议上说，中国人工智能初创公司AI DeepSeek的AI技术向美国发出了“闹钟”。技术公司。，美国公司“需要专注于竞争以获胜”。

如何发酵“ DeepSeek效应”

DeepSeek的成功，Crit，AI硬件领导者。

1月27日，当地时间，纳斯达克股票（NASDAQ：NVDA）的股价下降了16.86％，至每股118.58美元，降至10月以来的最低点；总市场价值为2.90万亿美元，每天蒸发5900亿美元（约为5900亿美元（约合约5900亿美元）（大约约4.28万亿卢比），创造了历史上最大的单日股票市场的记录。

NVIDIA的暴跌还导致创始人Huang Renxun缩水了210亿美元。

DeepSeek在国际规模上的成功也为中国AI创业公司带来了“ DeepSeek效应”。

“我对AGI的判断是一场马拉松。目前，该技术尚未融合，计算能力是一个重要的影响因素。”国内AI Head Startup and Face Wall Smart Ceo的Li Dahai告诉记者。

他介绍了，就像DeepSeek一样，面条墙开发的MiniCPM-S系列也引入了自开发的稀释和稀疏解决方案。通过将激活函数替换为relu，并通过渐进的约束来改善大型模型的稀疏度。将美洲驼和微型PM提高到近90％，还可以在维持模型的原始水平的基础上有效地减少模型推理的费用。

“ DeepSeek的成功表明，中国人工智能公司已经进入了世界上第一个梯队。尽管我们必须认识到，中国和美国确实在人工智能方面有原始的差距，但R1的发行将极大地影响该行业的发展。2025年。在这一年中，中国在AI领域的创新非常值得期待。

方韩认为，谈论中国完全超越美国的人工智能还为时过早，但是DeepSeek的表现表明，中国的AI在发展领域确实很明显。中国是最大的AI工程师团队，也是最多的AI论文。 “在AI领域，中国和美国的优势比其他国家巨大。”

“如果双方真正坐在地面上，您仍然需要解决计算电源卡颈的问题。”方汉坦率地说：“但是我希望在2 - 3年内完全解决这个问题。实施您追逐我并公平地竞争。”

分类： 股市