APP下载
APP二维码
联系我们
APP二维码
返回

DeepSeek开源FlashMLA代码库,优化Hopper GPU性能,加速大语言模型解码

来源:网络   作者:   日期:2025-02-24 12:14:22  

2月24日,DeepSeek推出了“开源周”,并开设了第一个代码基础FlashMLA。

模型开源是啥意思__开源3d模型

开源3d模型__模型开源是啥意思

据报道,这是DeepSeek为Hopper GPU优化的高效MLA解码核心,该核心专门用于处理可变长度序列,现在正在生产中。 DeepSeek说:“它可以实现3000 GB/s的内存带宽和H800上的580个TFLOPS计算性能。”

简而言之,FlashMLA是一种优化解决方案,它允许大型语言模型在H800等GPU上更快,更有效地运行,尤其是对于高性能AI任务。该代码可以加速大型语言模型的解码过程,从而提高模型的响应速度和吞吐量,这对于实时生成任务(例如聊天机器人,文本生成等)尤为重要。

MLA(多层注意力)是一种改进的注意机制,旨在在处理长序列时提高变压器模型的效率和性能。 MLA使用多个头的并行计算,使模型同时注意不同位置和语义级别的信息,从而更全面地捕获长距离依赖性和复杂的语义结构。

以前,在分析DeepSeek体系结构时,一位从业者提到MLA的本质是KV(钥匙值,缓存机制)的有损压缩和改善存储信息。 “这项技术首先是在DeepSeek-V2中引入的,MLA是显着降低开源模型中KV高速缓存大小的最佳方法,目前是显着降低KV缓存大小的最佳方法。”

DeepSeek开源代码有什么影响?记者用这个问题问了DeepSeek,它回答说,代码就像在AI推理引擎上安装“涡轮增压器”,允许大型模型更快地处理复杂的任务。降低技术阈值。 FlashMLA的重要性不仅是技术优化,而且是打破计算能力和加速AI包容性的垄断的关键步骤。

具体来说,FlashMLA可以突破GPU计算能力的瓶颈并降低成本。当传统的解码方法处理不同长度的序列(例如翻译不同长度的句子)时,浪费了GPU的并行计算能力,就像卡车运输小包装一样,大部分空间空间。 FlashMLA的改进是:通过动态调度和内存优化,Hopper GPU(例如H100)的计算能力被“挤出”,并且在同一硬件下,吞吐量显着改善。这意味着企业可以使用更少的GPU服务器完成相同的任务,从而直接降低推理成本。

另一方面,FlashMLA可以促进大型模型的实现。可变长度序列是实际场景(例如聊天对话,文档生成)的规范,但是传统方法需要填充固定长度,从而导致计算冗余。 FlashMLA支持可变长度输入的动态处理,使AI应用程序(例如客户服务机器人,代码生成)更快,更顺畅响应,改善用户体验并加速商业化。

以前,有效的解码核心主要是由技术巨头封闭来源(例如CUDA优化库)垄断的,中小型企业和研究人员很难再现。在FlashMLA为开源之后,开发人员可以免费获得“工业级优化解决方案”,从而降低技术阈值并促进更具创新性应用的诞生(例如垂直领域中的小型模型)。

“鲸鱼在挥舞!

一些网民还希望DeepSeek开源Web搜索(Web搜索)相关的代码,并提到“ DeepSeek是真正的Openai(开放人工智能)。”

这只是开始。 DeepSeek上周2月21日宣布,从下周开始,将开放五个代码图书馆,以“以完全透明的方式分享我们的微小而真诚的进度”。 DeepSeek说,这些在线服务中的基本构件已被记录,部署并已在生产环境中的实践测试中进行了测试。

在公告中,DeepSeek表示,这是一家探索Agi的小公司。作为开源社区的一部分,共享的每一条代码将成为加速AI行业发展的集体驱动力。同时,DeepSeek说,没有无法实现的象牙塔,只有纯净的车库文化(许多著名的美国公司都是从车库出生的)和社区驱动的创新。

分类: 股市
责任编辑: admin
版权声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。

发表评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。