字节跳动豆包大模型团队推出UltraMem稀疏架构,推理速度提升2-6倍,成本降低83%
根据Doubao Big Model团队的说法,BONTEDANCE DOUBAO BIG MODEL FOUNDAND团队最近提出了Ultramem,这是一种稀疏的模型体系结构,也解除了计算和参数,该架构解决了推理内存访问问题,同时确保模型效应。据报道,该体系结构有效地解决了MOE推理期间高内存访问的问题。推理速度比MOE架构高2-6倍,并且推理成本可以降低多达83%。
随着模型量表的扩展,推理成本和存储访问效率已成为限制大型型号应用的关键瓶颈。最近,Bytedance Doubao Big Model团队提出了一种新的稀疏模型体系结构Ultramem,该模型架构有效地解决了MOE推理期间高内存访问的问题。推理速度比MOE体系结构高2-6倍,并且推理成本可以降低高达83。%。该研究还揭示了新的体系结构的扩展定律,证明它不仅具有出色的扩展特征,而且还超过了MOE的性能。
实验结果表明,具有2000万个价值的训练超级模型可以在相同的计算资源下实现行业领先的推理速度和模型性能,从而为建立数十亿个价值或专家的新途径开辟了一条新的途径。
在变压器体系结构下,模型的性能与其参数数量和计算复杂性相关。随着LLM的规模不断增长,推理成本将大大增加,速度将减慢。
尽管MOE体系结构已成功解开计算和参数,但是当推理时,较小的批量大小会激活所有专家,从而导致内存访问急剧增加,从而大大增加了推理延迟。
为此,Bondedance Doubao Big Model Foundation团队提出了Ultramem,这是一种稀疏的模型体系结构,也解除了计算和参数,该架构解决了推断内存访问问题,同时确保模型效应。
实验结果表明,在相同的参数和激活条件下,Ultramem在模型效应方面超过了MOE,并将推理速度提高了2-6倍。此外,在常见的批次尺寸尺度下,Ultramem的存储成本几乎等同于具有相同计算量的密集模型的存储成本。
目前,该论文已被ICLR 2025接受。
Ultra-Sparse内存网络
纸链接:
1。教育部和PKM的局限性
LLM能力的增长需要成倍增长的计算资源,这在资源有限的环境(例如实时应用程序)中具有挑战性。为了解决计算问题,以前的研究人员提出了MOE和产品密钥内存(PKM)方案,但它们都有自己的局限性。
MOE通过稀疏激活专家将计算和参数分解,但是在推论方案中,速度实际上非常慢。原因是当模型原因时,它一次只能生成一个单词,因此批处理大小和序列长度很小。在这种情况下,通常会访问所有MOE的专家,这非常容易遇到用于存储访问的瓶颈。这导致推理延迟激增。
PKM首先提出了一个大存储层,其中包含大量稀疏参数值。在这里,该值实际上是向量。每个令牌将根据“行路线”和“列路由”定位最高分数并激活它。然后将这些值作为记忆层的输出来称量总和池。该方法是因为每个令牌在推断时仅激活很少的值,因此推断时它不会遇到存储瓶颈,但是其效果非常差,并且缩放能力很差。
2。超人考虑存储和效果
Ultramem是指PKM的设计,但补充了PKM的三个缺陷,以实现更有效的内存访问和更好的价值检索,同时降低了视频内存和部署的成本。
①优化模型结构
在PKM设计中,存储层只有1层,插入了整个变压器的中间层,这对大规模训练不友好,并且应尽可能地参与每个残差连接的巨大稀疏参数。
因此,研究团队将多个小型内存层分开,并以固定的间隔将它们分配到变压器层中。并添加了跳过层的操作,即,将在后续层中添加到当前层的内存层的输出。 。这允许模型并行执行内存层获取操作和变压器层计算。
②优化价值搜索方法
搜索时,只有最高分的M值将被激活,并且PKM的得分将通过“行分数” +“列得分”获得。团队进一步探索了一种更复杂的乘法方法,Tucker分解查询键检索(TDQKR)。这种方法的灵感来自塔克分解。具体而言,给定的值是(n,n,h),其中h是隐藏的大小,然后可以分解值的分数S_GRID如下:
在
这是一个学习的塔克核心。在此结构下,每个值的得分是通过乘以和添加R行分数和R列分数的组合来获得的,R行分数和R列分数具有更高的复杂性。
③隐式扩展稀疏参数
更稀疏的参数通常会带来更好的结果,但是太多参数可能会给视频内存和部署带来麻烦。为此,研究团队提出了隐性价值扩展(IVE)方法,隐含地扩展了稀疏参数,并介绍了虚拟内存和物理记忆的概念。
以4倍扩展为示例(如下图所示),虚拟内存的数量是物理内存的4x。给定多对(得分,索引),首先按照虚拟内存地址表检查表,而4个虚拟块将查询相同的物理内存表,然后进行加权总和池,并浏览不同的线性层,最后总和总和。输出。
由于最后一个线性和值之间没有非线性操作,因此每个线性可以与物理内存表集成以生成全新的内存表。在此示例中,它实际上隐式扩展了价值数量的4倍。
3。实验结果:推理速度比MOE高6倍
①模型绩效评估
研究团队对三种尺寸的激活参数进行了广泛的实验:151m,680m和1.6b,MOE,PKM和Ultramem的总稀疏参数是激活参数的12倍。
如下表所示,可以发现Ultramem对680m和1.6b具有显着的效果优势。
随着稀疏参数的增加,Ultramem的效果和推理速度如何变化?
下图(b)显示了Ultramem的效果变化。水平轴是稀疏参数与密集参数的比率,每种颜色的线表示稀疏。稀疏度定义为每个令牌激活的值的值/值数量。据观察,稀疏参数的持续增加和损失的减少是对数的。而且稀疏度越小,模型效应越好;但是,由于稀疏性的持续降低带来的好处逐渐饱和。
下图(c)显示了Ultramem的推理时间变化,水平轴为稀疏参数和密集参数的比率。据观察,当超出的推理时间继续增加稀疏参数时,其推理时间几乎没有变化,相反,MOE具有显着的增长趋势。
②消融实验
研究小组对151m激活和1.5B总参数进行了全面的消融实验。从原始的PKM开始,逐渐添加一些技巧和上面提出的结构改进,您最终可以获得C4验证损失的可观利润-0.092,而稀疏参数和计算量几乎没有变化。
综上所述,研究团队提出的ULTRAMEM的内存访问非常小,因此与MOE相比,推理成本可以降低多达83%。同时,就性能而言,随着模型容量的增加,超X型在相同的参数和计算量下超过了MOE,这表明其具有更强的可伸缩性。这项工作为开发更高效和可扩展的语言模型提供了一个有希望的方向。
4。最后写
Ultramem可以有效地应用于具有高潜伏期要求(例如代码完成)的推理方案,避免了类似MoE的内存访问瓶颈。即使在一般情况下,Ultramem也显示出与MOE相比的明显速度优势,除非批处理大小非常大。
目前,仍然有几个方向值得探索的Ultramem技术演变,包括但不限于:如何有效地优化稀疏参数,如何提高稀疏模型的推理能力以及如何更好地激活稀疏参数。这些技术方向可能成为后续研究的重要切入点。
发表评论
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。