APP下载
APP二维码
联系我们
APP二维码
返回

DeepSeek开源优化并行策略与英伟达Blackwell架构的DeepSeek-R1模型,实现计算效率与推理速度的大幅提升

来源:网络   作者:   日期:2025-02-27 15:09:11  

DeepSeek还有另一个重大举动!

在开源周的第三天,DeepSeek宣布开源优化的并行性策略。

优化的并行策略,一种旨在提高计算效率,降低资源浪费并最大化系统性能的并行计算解决方案。这些策略通过合理分配任务,协调资源利用并减少通信开销,在多核,分布式或异构系统中实现有效的并行执行。

同时,NVIDIA打开了对Blackwell Architecture优化的第一个DeepSeek-R1的来源,获得了25倍的惊人结果,增加了推理速度,并将每个令牌的成本降低了20次。这种新模型的推出标志着Nvidia在人工智能领域的另一个重大进展。

英伟达新品_英伟达黑科技_

连续移动

在DeepSeek开源周的第四天,今天早上,该公司再次开源优化了并行策略,包括DualPipe中的性能分析数据,专家并行负载均衡器(EPLB)和DeepSeek Infra。优化并行策略需要基于任务类型,数据量表和硬件环境的灵活选择,平衡计算,通信和存储开销,并最终实现高效且可扩展的并行计算。该策略是一种平行的计算解决方案,旨在提高计算效率,减少资源浪费并最大程度地提高系统性能。

最近,DeepSeek一直是铁杆。此前,该公司宣布将向公众开放。宣布公告后约20分钟内,DeePep在Github,Microsoft(MSFT.US)等平台上收到了1,000多个星星收藏。

据报道,DEEPEP是MOE模型培训和推理的专家平行性通信基础,可以实现有效且优化的全面通信,以支持包括FP8在内的低精度计算,适用于现代高性能计算。 DEEPEP还针对从NVLINK到RDMA的不对称带宽转发方案进行了深入优化,不仅提供了高吞吐量,而且还支持流媒体多处理器编号控制,从而在训练和推荐任务中实现了高吞吐量的性能。

此外,2月26日,DeepSeek宣布将在每天00:30至08:30之间的闲置时间内大大降低API呼叫价格。其中,DeepSeek-V3降至原始价格的50%,而DeepSeek-R1高达25%,最高下降75%。该公司表示,此举旨在鼓励用户充分利用夜间,并享受更经济和更平稳的服务体验。

Nvidia也借此机会取得了突破

最近,NVIDIA打开了对Blackwell Architecture进行了优化的第一个DeepSeek-R1的来源,获得了25倍的推理速度并将每个代码的成本降低20次,取得了惊人的结果。这种新模型的推出标志着Nvidia在人工智能领域的另一个重大进展。

据媒体报道,DeepSeek-R1的本地化部署引起了广泛的关注,Nvidia也亲自接管并开放了基于Blackwell Architecture-DeepSeek-R1-FP4的优化解决方案的来源。这种新模型的推理吞吐量每秒达到21,088个令牌,与H100中的844个令牌相比,增加了25倍。同时,每个令牌的成本也减少了20次。

NVIDIA在Blackwell体系结构上采用了Tensorrt DeepSeek优化,允许具有FP4生产级准确性的模型在MMLU一般智能基准测试中实现99.8%的FP8模型性能。目前,NVIDIA的FP4优化的DeepSeek-R1检查点已在拥抱面上是开源的,并且可以通过以下链接访问模型地址:DeepSeek-R1-FP4。

在训练后量化方面,该模型将变压器模块中线性算子的重量和激活量化为FP4,这适用于Tensorrt-LLM推断。此优化将每个参数的位数从8位减少到4位,从而将磁盘空间和GPU内存的需求减少了约1.6倍。

使用Tensorrt-LLM部署量化的FP4权重文件可以为给定的提示生成文本响应,这需要支持Tensorrt-llm的Inda GPU(例如B200),并要求8 GPU以Tensor_parallel_size = 8实现张量并行性。该代码使用FP4量化,张力发动机和并行计算来实现有效的,低成本的推断,适用于生产环境或高通量应用程序。

据报道,网民对这种优化的结果感到惊讶,他说:“ FP4魔术使AI在未来仍然很敏锐!”一些网民评论说,这种优化允许美国供应商以每百万个代币0.25美元的价格提供R1,并认为“将会有盈利”。

今天,DeepSeek的开源活动仍在继续。周一,DeepSeek打开了源FlashMLA,这是一种有效的MLA解码核心,该核心专为NVIDIA HOPPER GPU而设计,对可变长度序列进行了优化。 DeePep于周二推出,该通信库是为混合专家系统(MOE)和专家Parallel(EP)设计的。周三开源的是DeepGemm,这是一个支持密集和MOE模型的FP8 GEMM计算库,为V3/R1培训和推理提供了强有力的支持。

总体而言,无论是NVIDIA的开源DeepSeek-R1-FP4,还是开源的其他三个存储库,它们都通过优化VIDA GPU和cluster来促进AI模型的有效计算和部署。

分类: 股市
责任编辑: admin
版权声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。

相关文章:

发表评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。