DeepSeek-R1模型发布:低成本高性能引发企业争相接入,国内超100家上市公司已采用
DeepSeek触发的蝴蝶效应仍在继续。
1月20日,DeepSeek正式发布了其推理模型DeepSeek-R1的完整版本。该模型通过算法优化的训练成本低,可以实现与OpenAI推断模型O1相当的性能,并且是开源。
传统的AI培训对计算能力有巨大的需求。当该行业通常将AGI(通用人工智能)标记为“强大的奇迹”时,DeepSeek打开了“无人土地”,以吸引许多公司急于进入。 Enterprises Access DeepSeek,即企业通过硬件设备连接到DeepSeek的访问地址,从而获得了DeepSeek的模型服务。
根据不完整的统计数据,有100多家国内上市公司可以访问DeepSeek-R1模型,包括阿里巴巴,腾讯,百度和三家具有自我开发模型和AI应用程序的主要运营商。
《时代》每周一次的记者接受了许多行业内部人士的采访,发现公司选择DeepSeek的原因主要集中在两个方面。首先,DeepSeek-R1是开源的,易于部署的,并在特定情况下展示了强大的处理和推理功能;另一方面,DeepSeek的声音的增加意味着访问派对有机会进行溢流流量。 QuestMobile数据显示,DeepSeek的日常活跃用户在2月1日超过3000万大关。
但是,与DeepSeek模型相连时,大公司也可能面临巨大的损失压力。最近,luchen Technology的首席执行官Yang是AI Infra(连接硬件和上层应用程序的中层基础设施),他指出,DeepSeek-R1的全血版本的价格为每百万个令牌16 yuan(输出)(输出) )。如果在一个月内每天产出1000亿个令牌,则访问方可以赚取4800万元的收入。根据他的计算,大约需要4,000台配备H800的机器才能完成1000亿个令牌。根据当前的市场价格或H800的折旧,仅机器的月度成本将达到4.5亿元人民币,因此该公司每月可能面临4亿元人民币。元的损失:“用户越多,服务成本越高,损失就越多。”
AI Infra制造商市场负责人Zhang Di(化名)告诉《泰晤士报》每周记者,DeepSeek疯狂发酵,软件适应,测试和启动项目仅几周才需要时间。目前,公司的外部合作项目尚未实施,因此特定的成本数据尚不清楚。
在AI的潮汐效应下,无论是获得DeepSeek是巨大的利润,子弹都需要飞行一段时间。
访问模型不是“数量”竞赛
目前,企业获得DeepSeek的访问程度不同。
2月13日,在微信,腾讯文件,QQ浏览器和其他业务方面产品与DeepSeek-R1连接后,Tencent的自发AI助理“ Tencent Yuanbao”也已正式连接到DeepSeek-R1,以支持用户使用Hunyuan。大型模型和DeepSeek-R1。
与Tencent几乎完全拥抱DeepSeek的决心相比,阿里巴巴和其他公司获得DeepSeek的访问主要反映在其主要业务方面的产品中,这为自我开发的大规模产品保留了一些空间。例如,阿里巴巴的1688年,Dingtalk和Alibaba Cloud已连接到DeepSeek,其全面的AI助理Tongyi App尚未发表任何陈述。
并不难发现访问DeepSeek的公司领导着将DeepSeek应用于具有更多AI功能的企业。
“访问模型不是'数量'竞赛,需求方面应完全考虑模型和业务场景的适应性。” Wishmai Technology首席技术官Wang Yunfeng在《时代周刊》(Times Weekly)的记者采访时说,当前大型模型的应用模型变得越来越多样化,并且不同的模型具有自己的自适应场景。
以前,微博技术开发了130亿个参数消耗模型,并连接到一些主流模型。在谈论连接到DeepSeek的原因时,Wang Yunfeng解释说,微博技术的自开发模型在产品理解,价格预测等方面是垂直的。该领域具有出色的功能,但是AI技术的复杂性决定了单个模型无法覆盖所有场景。例如,当检索增强功能时,内部工具过程需要合理的AI调度,并且很难适应外部通用模型。目前,自我开发的模型负责关键任务,例如内部流程计划和用户意图理解,而通用模型则用于生成网站文章。一般场景。
从实际的实施效果来看,DeepSeek-R1的问题处理和推理能力非常好。 Wang Yunfeng告诉《时报》周刊记者,与其他模型(包括DeepSeek-V3)相比,DeepSeek-R1产生的内容的文本逻辑更清晰,更文学。它强大的语言处理能力已大大提高了公司内容生产的效率。 “如果使用了通用模型,则还需要垂直数据来更好地发挥作用。”
网络安全公司知道Chuangyu是DeepSeek的早期受益人。
去年12月,Zhichuangyu领导下的网络空间测量和映射引擎Zoomeye发起了DeepSeek的呼叫支持。 Zhichuangyu(首席战略官)的CSO周Jingping告诉《泰晤士报》周刊记者,从进入DeepSeek到现在,Zoomeye International版本的平台注册数量增加了28.5%,平台活动增长了121.6% ,AI搜索功能的使用率已达到35.8%。
周的记者每周被记者采访时,周兴就无法掩饰他的兴奋。他说,公司在多个分段业务方案中使用了DeepSeek,包括漏洞挖掘,数据情报分析,规则转换处理和自动安全操作。在数据智能分析中,从DeepSeek等大型模型的数据分析和推理功能中受益,公司可以有效地填写他们先前依赖的分析师知识框架之外的详细信息。
“与GPT相比,DeepSeek专注于通过低成本和高性能的技术路线降低企业的访问门槛,并通过开源策略促进技术普及和工业链协作,这为国内企业级爆炸提供了更大的可能性。申请。“在周兴的看法中成本效益。他说,DeepSeek的开源更加彻底,同时发布了蒸馏模型的本地定量版本,从而大大提高了企业本地化部署的成本效益。
适配器正在等待春季?
公司挤满了DeepSeek,他们还忙于位于大型模型产业连锁店中间的适配器。
张迪告诉《泰晤士报周刊》记者,DeepSeek变得流行后,公司中的顾问人数增加了。 “过去,只有一个客户在一个或两个月内咨询了一家企业。现在,我们每天必须收到十几个。”张迪说,他现在几乎每天都需要加班。除了处理业务咨询外,他还必须参加现场广播,客户接受,商业对接和其他工作,公司和小组会议通常在8:00和9:00 pm安排。
张迪说,在DeepSeek Fire之前,人们只专注于产品的私有化部署以探索产品的功能。现在,公司的顾问可能会受到焦虑的驱动,并且合作的目的变得更加清晰。两党之间的对话主题大致锁定以提高需求。 ,了解产品性能并提供报价。
另一位AI Infra制造商的创始人Zhao Xin告诉《时报》每周记者,需求急剧上升,行业的工作步伐通常加速了。 “有人在他们手中排队等待您的产品,这绝对比无所事事的时候更令人兴奋。”这意味着该产品进入市场,并且被人们真正使用,这也是对个人价值水平的积极反馈。
以前,一位分析师告诉《时报》周刊记者,由于NVIDIA芯片的稀缺,由于国内计算能力的适应成本很高,使用国内计算能力的公司在获得DeepSeek时可能会面临某些财务压力,这将影响中层层。制造商的发展前景。
您Yang拆除了企业从Times Weekly开始访问记者的DeepSeek的道路。他说,DeepSeek是一种开源模型,只要具有计算能力,访问方就可以部署和运行。
杨说,通常有两种提供计算能力的方法。一个是公司具有自己的计算能力,例如本地的多合一计算机或计算机房;另一个是公共云上的计算能力,公司可以每月租用。此外,一些云制造商还提供MAA(作为服务模型)模型,也就是说,在将DeepSeek模型部署到公共云之后,企业需要致电DeepSeek API并根据所使用的实际令牌量付款,这是合适的对于早期阶段。探索重量级的需求。
企业访问DeepSeek的成本主要分为硬件和部署成本。
在硬件成本方面,不同规格的硬件价格差异很大,相同规格和不同尺寸的硬件价格也大不相同。 “对于只需要使用模型的企业,选择推理芯片将有效降低硬件成本;对于具有微调和培训要求的企业,他们可能需要在购买或租用硬件时使用培训芯片。此外,以同意数量或需求较高的输出速度公司需要选择具有足够的计算能力和视频记忆的芯片,并且此类芯片的价格相对较高。”你杨说。
部署成本的差异不仅反映在部署不同规格的芯片的困难中,而且与企业的特定要求有关。例如,如果企业需要高的并发,访问知识库,访问网络功能等,则将有大量的工作负载。
“对于全血DeepSeek-R1 671b型号,本地化部署的硬件成本在数百万中,通常比部署成本高得多。一些中小型企业将使用该模型的蒸馏版本,或直接调用云。你添加了。
关于行业的成本问题,Zhao Xin说,该公司的客户目前主要是中小型企业和传统行业中的大型企业。尽管公司的规模和业务不同,但所涉及的成本数据也大不相同,但是从分销案例来看,目前的适当性,客户公司通常可以承担这一成本。
发表评论
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。