清华大学KVCache.AI团队与趋境科技联合发布KTransformers开源项目重大更新，成功打破大模型推理算力门槛

来源：网络作者：日期：2025-02-15 12:12:16

2月10日，Tsinghua University和Trend Technology的KVCACHE.AI团队发布的Ktransformers开源项目迎来了重大更新，成功地打破了大型模型推理和计算能力的门槛。以前，具有671B参数的Moe Architecture Mockup DeepSeek-R1在推理方面遇到了困难。推理服务器通常由于高负载而失败，而GPU小时收费的独家云服务器的高成本使中小型团队无法承受。市场上的“本地部署”解决方案主要是蒸馏版本，其参数大幅下降，而参数则在本地小规模。在硬件上运行全血DeepSeek-R1几乎是不可能的。

此KtransFormers项目更新带来了一个重大突破，支持了671B全样版本的DeepSeek-R1和V3本地运行在24G视频内存（4090D）设备上。它的预处理速度最多可以达到286个令牌/s，其推理生成速度最多可达到14个令牌/s。一些开发人员甚至使用此优化技术将Q2_K_XL模型的推理速度达到9.1代币/s，并使用3090图形卡和200GB的内存配置，实现了一亿级模型的“基于家庭”的操作。

此外，该项目的V0.3预览版还将集成Intel AMX指令集，以进一步提高CPU预填充速度，最多比Llama.cpp快286个令牌/s，将几秒钟的时间带到了长时间 - 序列任务响应。同时，Ktransformers提供了与Hugginface Transformers兼容的API和CHATGPT风格的Web界面，以减少入门的困难。其基于YAML的“模板注入框架”可以灵活地切换各种优化方法。

4090显卡单枪匹马就能跑满血版DeepSeek-R1 清华团队突破大模型算力难题_4090显卡单枪匹马就能跑满血版DeepSeek-R1 清华团队突破大模型算力难题_