APP下载
APP二维码
联系我们
APP二维码
返回

清华大学KVCache.AI团队与趋境科技联合发布KTransformers开源项目重大更新,成功打破大模型推理算力门槛

来源:网络   作者:   日期:2025-02-15 12:12:16  

2月10日,Tsinghua University和Trend Technology的KVCACHE.AI团队发布的Ktransformers开源项目迎来了重大更新,成功地打破了大型模型推理和计算能力的门槛。以前,具有671B参数的Moe Architecture Mockup DeepSeek-R1在推理方面遇到了困难。推理服务器通常由于高负载而失败,而GPU小时收费的独家云服务器的高成本使中小型团队无法承受。市场上的“本地部署”解决方案主要是蒸馏版本,其参数大幅下降,而参数则在本地小规模。在硬件上运行全血DeepSeek-R1几乎是不可能的。

此KtransFormers项目更新带来了一个重大突破,支持了671B全样版本的DeepSeek-R1和V3本地运行在24G视频内存(4090D)设备上。它的预处理速度最多可以达到286个令牌/s,其推理生成速度最多可达到14个令牌/s。一些开发人员甚至使用此优化技术将Q2_K_XL模型的推理速度达到9.1代币/s,并使用3090图形卡和200GB的内存配置,实现了一亿级模型的“基于家庭”的操作。

此外,该项目的V0.3预览版还将集成Intel AMX指令集,以进一步提高CPU预填充速度,最多比Llama.cpp快286个令牌/s,将几秒钟的时间带到了长时间 - 序列任务响应。同时,Ktransformers提供了与Hugginface Transformers兼容的API和CHATGPT风格的Web界面,以减少入门的困难。其基于YAML的“模板注入框架”可以灵活地切换各种优化方法。

4090显卡单枪匹马就能跑满血版DeepSeek-R1 清华团队突破大模型算力难题_4090显卡单枪匹马就能跑满血版DeepSeek-R1 清华团队突破大模型算力难题_

分类: 股市
责任编辑: admin
版权声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。

相关文章:

发表评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。