256K文本预加载提速超50%,还解锁了1M上下文窗口。
美团龙猫LongCat系列新年出招,发布全新稀疏注意力机制LoZA(LongCat ZigZag Attention)
新技术集中火力,重点解决长文本任务的理解、算力难题。

相比于LongCat系列之前的全注意力MLA机制,LoZA只改了一半的核心模块。
但模型长文本能力从256K扩展到1M,解码速度还快了不少。
甚至比同类型的Qwen-3模型表现还要好。
接下来看具体方案。
如何做到 “只算关键部分” ?
全注意力机制的算力瓶颈在于平方级的计算复杂度O (L²),这导致模型在处理长文本任务时对显卡要求高,还会出现推理延迟问题。
LoZA的核心思路是专注于处理重要的内容,不重要的部分少花力气。

作为LongCat系列的核心技术升级,LoZA主要是在原来的MLA机制上做改造。
具体分两步。
首先,给模型里的多头潜在注意力模块MLA做一个全局“筛查”,找出哪些模块可以被改造。
在原来的MLA架构中,每个MLA模块都是处理注意力的核心单元,现在的新方案是给每个模块配一个可学习权重α。
α值越高,说明该模块额全注意力计算越关键,一旦简化就容易丢性能;α值越低就意味着模块的可替代性强,即便换成更轻量的计算方式,对整体的理解能力影响也不大。
在训练过程中,团队冻结模型其他参数,只更新α的梯度,通过这种专门的校准训练让模型自主学习α值,然后按α值从小到大排序,找出那些稀疏化后不影响性能的MLA模块,也就是后续的优化目标。
随后,将找出的50%低性能模块换成更轻巧的流式稀疏注意力SSA
这样就形成了一种交错结构,团队将这种结构称为ZigZag
SSA的计算复杂度是线性的O (L·S)(S为稀疏窗口大小,固定为1024Token),远低于全注意力的O (L²)。
所以这种交错结构让模型既不会因为过度简化而变笨,又能把计算复杂度降到线性级别,省不少算力。
