清华大学KVCache.AI团队与趋境科技联合发布KTransformers开源项目重大更新,成功打破大模型推理算力门槛
2月10日,Tsinghua University和Trend Technology的KVCACHE.AI团队发布的Ktransformers开源项目迎来了重大更新,成功地打破了大型模型推理和计算能力的门槛。以前,具有671B参数的Moe Architecture Mockup DeepSeek-R1在推理方面遇到了困难。推理服务器通常由于高负载而失败,而GPU小时收费的独家云服务器的高成本使中小型团队无法承受。市场上的“本地部署”解决方案主要是蒸馏版本,其参数大幅下降,而参数则在本地小规模。在硬件上运行全血DeepSeek-R1几乎是不可能的。
此KtransFormers项目更新带来了一个重大突破,支持了671B全样版本的DeepSeek-R1和V3本地运行在24G视频内存(4090D)设备上。它的预处理速度最多可以达到286个令牌/s,其推理生成速度最多可达到14个令牌/s。一些开发人员甚至使用此优化技术将Q2_K_XL模型的推理速度达到9.1代币/s,并使用3090图形卡和200GB的内存配置,实现了一亿级模型的“基于家庭”的操作。
此外,该项目的V0.3预览版还将集成Intel AMX指令集,以进一步提高CPU预填充速度,最多比Llama.cpp快286个令牌/s,将几秒钟的时间带到了长时间 - 序列任务响应。同时,Ktransformers提供了与Hugginface Transformers兼容的API和CHATGPT风格的Web界面,以减少入门的困难。其基于YAML的“模板注入框架”可以灵活地切换各种优化方法。
发表评论
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。