DeepSeek模型热度飙升,京东云、华为云等巨头纷纷支持上线
今天,JD Cloud宣布了DeepSeek-R1和DeepSeek-V3模型的正式启动,支持两种模式:公共云在线部署和专门的混合私有化实例部署。几天前,阿里巴巴云,百度智能云,华为云,腾讯云,火山引擎和蒂亚尼云已连接到DeepSeek模型。亚马逊AWS,Microsoft Azure等海外云巨头也正式宣布了他们的支持。
许多国内芯片制造商也做出了回应。华为今天宣布,DeepSeek-R1,DeepSeek-V3,DeepSeek-V2和Janus-Pro将在Ascend社区推出; DeepSeek-V3全血式版本将在国内Muxi GPU的首次发布体验中启动。 Tianshu Zhixin,Moore Thread和Haiguang Information还宣布了2月4日对DeepSeek模型的支持。NVIDIA,AMD和INTEL等海外芯片巨头已经在早些时候完成了支持。
此外,AI基础设施制造商(例如Wuwen Xinqiong和基于硅的流量),以及Qingyun Technology,PPIO Paiou Cloud和Yunxiong Technology等独立云制造商宣布了他们的适应和模型发布服务。
从底层芯片到云服务提供商,随着DeepSeek的朋友圈的扩展,预计将进一步促进大型模型的低成本,并扩大AI的垂直应用方案。
目前,华为Xiaoyi Assistant应用程序的智能广场已在Beta版的DeepSeek-R1上启动。广元技术,Danghong软件等在科学技术创新委员会上列出了公司,也已连接到DeepSeek系列模型,以进行应用程序探索。
六个主要的云巨人启动了DeepSeek系列模型,以促进开源生态系统的发展
在DeepSeek下的大型模型变得流行后,主流的国内云平台连续启动了相关模型。
今天,JD.com Yunyanxi AI开发和计算平台宣布,它支持DeepSeek-V3,DeepSeek-R1和所有蒸馏小型参数模型(DeepSeek-R1-Distill)的一键部署。
在春季音乐节期间,华为云和总部位于硅的流动性共同推出,并基于Huawei Cloud Ascend Cloud Service推出了DeepSeek-R1/V3推理服务。阿里巴巴,腾讯,百度和火山引擎等云制造商也推出了DeepSeek系列型号。其中,百度智能云还提出了限时和免费服务解决方案。到目前为止,中国的六个主要云巨人已正式支持DeepSeek。
中国的云平台以集中的方式推出了DeepSeek。它的背后是云制造商,希望吸引更多的客户在DeepSeek的热浪中使用其计算能力和服务。
AI产品列表中的数据显示,DeepSeek的日常活跃用户在发布的仅18天内超过1500万,而Chatgpt花了244天达到1500万天,增长率为Chatgpt的13倍。推出20天后,DeepSeek的日常活跃用户达到了2215万,这是Chatgpt日常活跃用户的41.6%,而Doubao的日常活跃用户则超过1,695万。
预计云基础设施制造商有望受益于DeepSeek带来的新叙述,DeepSeek的成功也将增强整个开源社区的共同建设氛围,从而使更多的开源模型在巨人的肩膀上取得了快速的进步。 ”。
与OpenAI的封闭源路线相比,DeepSeek选择了开源路线,这与PC时代的Windows和Linux之间的战斗相似。面对DeepSeek的流行,Openai首席执行官Sam Altman此前曾承认,Openai在开源策略中“站在历史的错误方面”,并表示有必要考虑制定不同的开源策略。
Huatai Securities认为,开源模型的优势反映在社区共同建设和技术共享中。从理论上讲,所有小参数模型都可以直接利用从DeepSeek-R1中提取的标签数据来增强推理性能。 2025年可能是开源模型迅速改善的一年,而国内大型模型的进度值得关注。
主流国内芯片兼容性支持挑战和机会共存
在筹码领域,DeepSeek-R1,DeepSeek-V3,DeepSeek-V2和Janus-Pro正式在Ascend社区中正式推出,支持一键式收购DeepSeek Series Models,并支持开箱即用的使用上升硬件平台,并提供精确性能的微调。推断面向服务的快速部署和其他功能,
摩尔线程还发表了一份声明,称其已实施了DeepSeek蒸馏模型推理服务的部署。为了促进国内AI生态系统的开发,Moore线程将很快开放由自己设计的Kuae GPU智能计算集群,并完全支持DeepSeek-V3,R1模型和新一代蒸馏模型的分布式部署。
天舒的智能和Gitee AI已成功完成了DeepSeek-R1的改编工作,并正式推出了许多大型模型服务,包括DeepSeek-R1-Distill-Qwen-1.5B,DeepSeek-R1-distill-distill-distill-distill-qwen-qwen-7b ,deepSeek-r1-distill-qwen-14b等。天舒·齐辛(Tianshu Zhixin)还说,它正在与许多合作伙伴(如并行技术和计算电源互联网)合作,以适应和启动包括R1在内的DeepSeek模型。很快将启动的并行技术平台将不仅针对普通用户和开发人员。 ,是一个主要针对企业用户的AI服务平台。
Gitee AI和MU XI于2月2日首次推出了一套全套DeepSeek-R1千次蒸馏模型,从而实现了国家生产和研发,以及中国的制造,从芯片到平台,从计算能力到模型。 2月5日,Gitee AI进一步指出,DeepSeek-V3全血型版本是在国内Muxi GPU的首次发布体验中启动的。
Haiguang信息还通过Haiguang DCU(Deep Computing单元)完成了DeepSeek V3和R1模型的改编,并已正式启动。
此外,国家超级计算互联网平台已正式推出了DeepSeek-R1型号的1.5B,7b,8b和14b版本,并将在不久的将来进行更新,包括32B,70B版本。除R1模型外,国家超级计算互联网平台还推出了诸如DeepSeek-V3,DeepSeek-V2.5系列,DeepSeek-Coder系列,DeepSeek-Math-Math Series(7b)和DeepSeek-V2系列(Lite)等模型。
“ DeepSeek大型模型和国内芯片的改编不需要任何时间,估计绩效优化在一周内完成。”根据计算能力领域的人。
“目前,主流国内芯片基本上已经获得了对DeepSeek蒸馏版小型型号的兼容支持。这意味着,只要像Llama和Qwen这样的常见模型可以运行,DeepSeek蒸馏版Small Models现在就可以直接运行修改。”魔术情报的联合创始人Xu Lingjie告诉记者:“可以预见的是,作为基于Deepseek的应用程序,雨后会像蘑菇一样涌现,越来越多的芯片制造商进入市场,以及新的一轮市场竞争和新的市场竞争和新的一轮市场竞争和价格调整可能会开始。”
但是,Xu Lingjie还指出,V3和R1的全血版本具有6710亿个参数,这大大提高了其硬件要求。同时,由于先前未广泛使用的MOE专家并行性(EP)策略,其操作需要额外的推理框架支持。
“目前,仅成功推出了少量国内筹码。为了完全解锁DeepSeek的高性能和低成本推理的优势,根据官方推荐的配置,需要将320 GPU部署在解码部分中,该部分的提议的解码部分需要为了实现完整的实施。 Xu Lingjie提到。
扩展AI应用程序方案
说到DeepSeek对未来国内AI产业链的积极影响,Mu Xi联合创始人Yang Jian说,最大的影响是加强学习蒸馏过程的开源,这将大大降低后期的成本在垂直领域的大型模型的训练和推断。垂直领域的可用性急剧增加,它还在各个行业中提高了对大型模型的认识,并提高了以私有化部署垂直模型的愿望。 R1蒸馏32B模型的功能靠近OpenAI的O1,使企业不必担心泄漏而将低成本部署私有化,并且它们的部署意图得到了极大的改善。
Trendforce Research指出,尽管DeepSeek模型降低了AI培训的成本,但AI模型的低成本有望扩大应用程序方案,从而增加了全球数据中心的构建量。作为数据中心互连的关键组成部分,光学收发器模块将受益于对高速数据传输的需求。将来,AI服务器之间的数据传输需要大量的高速光学接收和接收模块。这些模块负责将电信号转换为光学信号并通过光纤传输,然后将接收到的光学信号转换回电报。根据Trendforce数据,2023年2023年在2023年400Gbps的光学收发器模块的全球运输在2024年为2040万,到2025年估计超过3190万,年增长率为56.5%。
Yang Jian告诉《科学与技术创新委员会》,“实际上,大规模模型应用的风险投资已经从22-24下降了,并且可能会扭转。由于培训后成本急剧下降。”
随着DeepSeek推动模型成本的下降,预计它将推动AI应用程序的爆炸式增长。广元技术,Danghong Technology等在科学技术创新委员会中上市的公司都在探索DeepSeek模型的实施。其中,Kuaimai Xiaozhi是广元技术下的智能客户服务机器人。它的大型智能产品Lingzhi支持各种DeepSeek。 Guangyun Technology表示,它将继续通过包括DeepSeek在内的大型模型来促进其AI产品的深刻改编。
Danghong Technology的Blackeye多模式音频视频模型正式整合了DeepSeek-R1和DeepSeek Janus Pro,并在多行业垂直方案中完成了数据调整培训,例如音频媒体,行业,卫星和卫星,以及车辆安装的智能驾驶舱。
DeepSeek为AI应用带来了更大的想象力。今天,金索夫特办公室曾经达到20厘米的每日限制。但是,《科学与技术创新委员会》每日获悉,金索夫特办公室尚未正式与DeepSeek合作。 Kingsoft Office附近的一些人告诉《科学技术创新委员会》的记者,Kingsoft Office正在与DeepSeek进行对接测试。将来是否合作取决于随后的发展。 。
在研究层面,杨江预测,主要的研究机构将研究用于培训前和培训后的新技术,以加快新算法的实施。 “实际上,DeepSeek使用的许多方法是大学和大学中研究结果的极好整合。每年都有这么多新方法。哪种组合可以产生最大的产出和价值?发现。今年将有更多的算法创新。
就才华而言,杨吉安(Yang Jian)认为,大型模型的人才应用的培养将更加有价值。从2022年到2024年,它将集中在少数公司中,整个行业一级正在缩小。同时,大学和大学没有培养2022年至2024年的大型模型申请才能。在25年来春季音乐节上迅速做出反应的大学和大学开始计划在春季培养大型模型申请的才能,覆盖了数百个大学将在秋季跟随。今年,预计该国将在今年的大型模型申请开发中培养300,000至500,000至500,000个人才。
发表评论
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。