这项由瑞士联邦理工学院(EPFL)CLAIRE实验室开展的研究,于2026年5月以预印本形式发布在arXiv平台,论文编号为arXiv:2605.28640。有兴趣深入了解的读者可以通过该编号查询完整论文。
手机里的语音助手、网页上的智能聊天机器人、帮你润色文章的AI写作工具——这些我们日常接触的人工智能产品,背后都依赖一种叫做"大型语言模型"的技术。这类模型特别擅长理解和生成文字,但它有一个令工程师头疼的缺点:处理很长的文本时,计算量会急剧膨胀,速度变慢,成本飙升。更麻烦的是,当研究者尝试用各种"节省计算"的技巧让模型快起来时,模型的准确率往往会大幅下降——就好像一边给运动员减重,一边发现他的成绩也在跌落。
EPFL的研究团队在这个困境中找到了一条新路。他们发现,只需给AI模型装上一个类似"短期记忆手册"的小模块,那些原本会因为"偷懒"(即跳过大量信息)而出错的加速技巧,准确率竟然大幅回升,有时甚至接近完整阅读所有信息时的水平。这个发现意味着,让AI又快又准,并非只能靠改进"偷懒方式"本身,还可以从改造AI的基础架构入手。
一、为什么AI处理长文章会这么"费劲"
要理解这项研究解决的是什么问题,可以从一个日常场景出发。假设你是一位公司行政人员,每天要处理几百封邮件。大多数邮件你扫一眼就能判断是否重要,但偶尔有一封关键合同藏在几百封广告邮件之间,你必须仔细找到它并做出回应。
现在的大型语言模型处理长文本时,情况很像这位行政人员面对几百封邮件:它需要把文本中所有词语两两之间的关系都计算一遍,才能判断哪些信息最重要。文本越长,需要计算的关系就呈平方级增长——文本长度翻倍,计算量变成原来的四倍。这个特性在技术上被称为"注意力机制的二次方复杂度",是当前AI推理速度慢、成本高的核心原因。
为了解决这个问题,研究人员想出了各种"偷懒"策略,核心思路是:反正注意力是稀疏的(大多数词语之间的关联其实很弱),那就只计算最重要的部分,跳过其余的。Quest、MoBA、SnapKV就是这类策略的代表,它们分别针对不同环节——有的减少生成答案时的计算量,有的减少理解问题时的计算量,有的直接丢掉模型存储的大量中间信息。这些方法确实让模型快了起来,但代价是准确率下降,尤其在需要精确检索特定信息的任务上,表现会明显变差。
二、一个"短期记忆手册"如何改变游戏规则
EPFL的研究团队把目光投向了另一个方向:与其修补"偷懒"方法本身,不如改造AI模型的基础架构,让它在"偷懒"时损失更少的信息。
他们使用的核心工具来自此前发表的一项架构设计,叫做RAT+(全称Recurrence-Augmented Attention,即"循环增强注意力")。这个名字听起来很技术,但核心思想其实很直觉:在标准的注意力模块旁边,加入一个轻量级的"记忆更新机制",让每一个词语的关键向量(也就是模型用来互相"打招呼"和"传递信息"的中间量,技术上叫KV状态)在流经模型时,不只是自身的信息,还悄悄混入了前面词语留下的"印记"。
这个印记是指数级衰减的:距离越远的词语,它留下的影响越淡;越近的词语,影响越浓。这种机制就像一本随手翻阅的"短期记忆手册"——你不可能记住前天读过的每一个字,但昨天看到的重点会在你脑海里留下淡淡的痕迹,帮助你今天理解新的内容。
从数学上看,这个更新过程可以用一个简单的递推公式描述:每个时刻,值向量和键向量都被一个输入相关的"门控信号"按比例混合——一部分保留上一刻的记忆,一部分吸收当前词语的新信息。通过控制"有效记忆长度"(研究团队把它固定在64个词语的范围内),这个模块只引入极少的额外计算量和存储开销,几乎可以忽略不计,却能让每个词语的向量悄悄承载更丰富的上下文信息。
这对"偷懒"的加速方法意味着什么呢?当模型在做"跳过大部分信息、只看少数关键片段"的稀疏计算时,它选中的那些片段,现在每一个都藏着来自附近词语的记忆印记。就算关键答案的位置恰好没被选中,附近被选中的片段也可能携带着答案的"残影",帮助模型给出正确的回答。
三、三种"偷懒"方法都从中受益了吗
研究团队选取了三种在学术界颇具代表性、各自针对不同效率瓶颈的稀疏推理方法,来验证这个"短期记忆手册"是否真的有帮助。
第一种是Quest,专门减少模型在生成每个答案词时需要访问的信息量。它把存储的信息切成一块一块,每次生成时只调取得分最高的少数几块,其余的暂时忽略。第二种是MoBA,工作方式与Quest类似,但主要作用于模型理解问题的阶段,而非生成答案的阶段。第三种是SnapKV,思路更激进:在模型理解完问题之后,直接把大部分存储的中间信息扔掉,只保留被认为重要的那些,之后生成答案时就只能在这个被"剪枝"后的信息库里检索。
为了公平测试,研究团队设计了严格的对比实验:在同样的模型上,分别用原始的标准注意力架构和加了记忆模块的RAT+架构,以同样的"偷懒"比例(保留1/4、1/8或1/16的信息)运行上述三种方法,然后在一系列"大海捞针"类型的任务上比较准确率。
所谓"大海捞针"任务,是指把一些关键数字或字符串藏在一大段无关文字中,让模型找出来并正确回答相关问题。这类任务对信息检索的精确度要求很高,是测试稀疏方法可靠性的绝佳场景。具体而言,研究团队使用了来自RULER基准测试集的八种不同变体,从最简单的"从背景噪声中取出单个数字",到最难的"从大量相似诱饵中区分多组键值对并精确匹配UUID字符串",难度跨度很大。
四、数字说话:记忆模块带来了多大的改善
实验结果相当清晰,记忆模块在几乎所有任务和所有稀疏比例上都带来了显著的准确率提升。
以SnapKV为例,在7B参数(70亿参数)从零训练的模型上,使用1/4的信息预算时,RAT+架构比标准注意力架构平均提升了34.11个百分点;使用1/8预算时,提升幅度扩大到40.03个百分点。在最严苛的1/16预算下,最简单的单针检索任务(S-1)准确率从39.2飙升至84.2。
Quest方法在简单任务上本来就做得不错,差距主要体现在难任务上。在多键匹配任务(MK-2和MK-3)中,RAT+架构将准确率从76.4提升到99.4,从68.0提升到98.6,接近完美。
MoBA在RAT+架构下的表现更是令人印象深刻:在1/16预算下,所有八个任务的准确率几乎全部达到或接近100%,而标准注意力架构在同样预算下,有些任务的准确率只有50%左右。
更重要的是,这个结论不仅适用于从零训练的模型。研究团队还在OLMo2-7B上做了验证——这是一个由Allen AI研究所在数万亿规模的文本上预训练的成熟模型。研究团队仅用了100亿个词语的额外训练(相比原模型的数万亿,只是九牛一毛),就成功为OLMo2-7B加装了这个记忆模块。即便训练量如此有限,效果依然显著:Quest在MK-2任务上准确率从68.0跳至98.6,MoBA在MK-3任务上从53.6升至94.8。这说明,这个思路可以迁移到已有的大型商业模型上,而不需要从零重新训练。
五、为什么会有这样的效果?两个假设
面对如此一致的提升,研究团队并没有停留在"它就是有效"的层面,而是进一步追问背后的原因,并提出了两个互补的假设。
第一个假设是:记忆模块让模型在"选哪些信息块"这件事上做得更准了。可以把这个过程类比为图书馆管理员给书架上的书贴标签。标准注意力架构给每本书贴的标签,只反映那本书本身的内容;而加了记忆模块后,标签上还隐隐包含了"这本书旁边放着什么书"的提示,于是当有人来找特定内容时,管理员更容易精确定位到正确的书架区域。
为了验证这个假设,研究团队统计了模型每个"注意力头"(可以理解为模型内部专门负责不同类型信息检索任务的小团队)选中的信息块是否真的包含了正确答案所在的位置。他们发现,RAT+架构下,排名靠前的那些注意力头,命中正确答案的比率明显高于标准注意力架构,尤其是在那些带来了较大准确率提升的任务上,差距最为突出。
第二个假设是:即使选错了信息块,记忆模块也能帮忙"亡羊补牢"。这是因为被选中的信息块,在RAT+架构下携带了更丰富的上下文记忆,哪怕正确答案的原始位置没被直接选中,附近被选中的信息块也可能通过记忆传递的方式,间接保存了答案的相关线索。
这个假设的验证方式很巧妙:研究团队把正常的"智能选择器"换成了"随机选择器"——也就是说,模型不再根据查询内容选择最相关的信息块,而是完全随机抽取同等数量的信息块。如果记忆模块的提升完全来自"选得更准",那么在随机选择的条件下,两种架构应该表现差不多。但实验结果显示,即便是随机选择,RAT+架构的准确率依然远高于标准注意力架构。以Quest方法、1/4预算为例,在MK-1任务上,随机选择下RAT+的准确率为84.9,而标准注意力仅为53.4;在MV任务上,RAT+是74.4,标准注意力只有39.6。这有力地支持了第二个假设:记忆模块确实让每个被选中的信息块携带了更多有价值的内容,提供了额外的信息传递路径。
值得一提的是,研究团队在随机选择实验中还发现了一个有趣的细节:在这种情况下,SnapKV的表现反而比Quest更好,而在正常选择条件下,Quest往往优于SnapKV。这个反转可以解释为:SnapKV在理解问题后只做一次选择,随机性相对集中;而Quest在每次生成词语时都重新做随机选择,随机噪声在整个生成过程中持续累积,对结果的干扰更大。
六、这项研究说明了什么更深层的道理
传统上,研究高效AI推理的工作大多聚焦于如何设计更聪明的"偷懒"方式——更精准的信息筛选算法、更高效的数据结构、更合理的压缩策略。EPFL这项研究提供了一个不同的视角:也可以从模型架构本身下手,让模型的每一个中间表示天然地携带更丰富的信息,从而使任何"偷懒"方法都能在更好的信息基础上运作。
这个视角的意义在于,它打开了一个新的优化维度。不同的稀疏推理方法可以各自继续演进,而一个更好的基础架构可以像地基一样,让所有上层方法都受益。研究团队选取的三种方法覆盖了"减少生成时计算量"、"减少理解时计算量"和"压缩存储信息"三个不同的效率目标,它们全都从记忆模块中获益,这说明这种基础架构改进的红利具有相当的普遍性。
当然,这项研究也有其局限性。所有实验都在4096个词语(4K)的上下文长度下进行,没有验证更长文本场景下的效果。评测任务主要限于RULER基准中的八种"大海捞针"变体,没有覆盖问答、摘要、代码生成等更多样化的任务。此外,研究只测试了Quest、MoBA和SnapKV三种方法,还有许多其他稀疏推理方法尚未被纳入。在OLMo2-7B的实验中,记忆模块获得的训练量远少于原始模型参数,这在一定程度上可能影响了公平性,尽管研究团队通过有监督微调做了弥补。
归根结底,EPFL的这项研究传递了一个简洁的信息:让AI在"偷懒"时更聪明,不一定只能靠改进偷懒的方式,也可以靠给AI装上一个更好的短期记忆机制,让它就算偷懒,也能从更丰富的信息中找到答案。这对于未来长文本AI系统的设计来说,是一个值得深入探索的方向。
Q&A
Q1:RAT+里的"指数衰减记忆"到底是怎么工作的?
A:简单来说,RAT+在模型处理每个词语时,会把当前词语的关键向量(KV状态)与前一时刻的向量按比例混合——通过一个"门控信号"控制保留多少旧记忆、吸收多少新信息。离得越远的词语,它的影响会指数级递减,就像记忆随时间逐渐淡化一样。研究团队把这个有效记忆范围控制在64个词语以内,使得该模块的额外计算开销极小,却能让每个向量悄悄携带附近上下文的信息。
Q2:Quest、MoBA和SnapKV这三种方法有什么区别?
A:三种方法针对的效率瓶颈不同。Quest在模型生成每个答案词时,只调取得分最高的少数信息块,减少解码阶段的计算量,但仍然保留完整的信息存储。MoBA则主要作用于模型理解问题的阶段,同样采用分块选择策略,也保留完整存储。SnapKV最为激进,在理解问题后直接丢弃大部分存储信息,只保留重要的部分,因此既减少存储空间,也减少后续生成时的计算量,但信息一旦丢弃就无法找回。
Q3:OLMo2-7B加装记忆模块只需要训练100亿词语,这是否足够?
A:研究团队坦承,100亿词语的训练量远少于OLMo2-7B原始的数万亿训练量,因此记忆模块的训练并不充分。为此,他们在评测前额外对两种架构都进行了针对任务的有监督微调,以缩小这种不平衡带来的影响。即便如此,加装记忆模块后的OLMo2-7B在多数任务上仍然展现出显著优势,说明即使训练有限,这个机制也能带来实质性的改进,同时也暗示如果给予更充分的训练,效果可能还会进一步提升。