允中 发自 凹非寺
量子位 | 公众号 QbitAI
好家伙,这次不是模型圈自嗨。
一个训练成本约1500美元、参数量约1B、从零开始预训练的小模型,把HRM推到了下一代推理架构讨论的中心。
HuggingFace联合创始人兼CEO Clem Delangue亲自转发推荐。
图灵奖得主Yoshua Bengio作为共同作者参与的新论文,也走向了同一条latent recursive reasoning路线。
更反常的是,它不是蒸馏,不是微调,也不是在已有大模型能力上套壳。
它就是Sapient Intelligence发布的HRM-Text。
如果只看参数量,它很容易被写成一个熟悉的故事:“小模型又赢了。”
但HRM-Text真正值得注意的地方,不是小,也不是便宜。而是它背后那套HRM架构,正在问一个更底层的问题:
模型到底需要记住全世界,还是需要学会如何思考、如何查找、如何验证、如何行动?
过去几年,大模型行业的默认答案很简单:参数更多,数据更多,训练更久,Token更长。
HRM走的是另一条路。
它不是继续把模型做成一个越来越大的知识仓库,而是试图把模型做成一个更强的推理核心。
大模型像一个背着图书馆的学生,HRM更像一个会解题、会查资料、会复盘、会行动的人。
当然,真正让技术圈认真讨论HRM-Text的,不是一次转发,而是一组很反常的数字。
一个约1B参数模型,在MATH上拿到56.2,在GSM8K上拿到84.5,在ARC-Challenge上拿到81.9,在DROP上拿到82.2。
训练成本约1500美元,16块H100跑了不到两天。
没有post-training,没有RLHF,也没有依赖显式思维链数据。团队同步开放了论文、模型权重和预训练代码。
这意味着,HRM-Text不是在现有大模型能力上做包装,而是在基础预训练阶段,直接验证一种新的架构路线。
这不是又一个“小模型逆袭”的故事。更准确地说,它是一次推理模型的换脑实验:
不让模型说出更多思维链,而是让模型在开口之前,先在脑子里想完。
而这条路线,很快也出现在了更高层级的学术讨论中。
HRM-Text发布前后,图灵奖得主Yoshua Bengio作为共同作者参与发布了《Generative Recursive Reasoning》。论文提出的GRAM,在核心计算结构上高度复用了HRM的分层递归骨架:同样是高层状态、低层状态、双时间尺度、多轮递归更新,只是在此基础上进一步加入概率生成模块。
换句话说,Sapient不是等行业给出答案之后再追随,而是先把一个关键问题抛了出来,并率先拿出了可运行、可开源、可验证的模型系统:
模型能否在输出之前,通过潜空间中的多轮分层递归计算,完成更深层的内部推理?
HRM-Text的问题因此不只是:
一个1B模型为什么能做到这些benchmark?
更关键的问题是:
Sapient是否提前验证了一条下一代推理模型值得认真对待的新路线?
知识不等于智能,CoT也不等于思考
现在的推理模型,很多时候像是在“边说边想”。
Chain-of-Thought把推理过程写成一串token,让模型一步一步输出中间过程。
这当然有用,但问题也很明显:
Token越来越长,账单越来越高;中间一步错了,后面就可能一路错下去;更关键的是,推理过程被绑定在语言表面,模型很容易学到“像推理的文本”,却不一定真的掌握了“推理的结构”。
HRM问的是一个更激进的问题:推理为什么一定要写出来?
人类做很多题,并不是把脑内每一步都说成一句话。我们会在脑子里反复尝试、修正、排除、回退,最后才说出答案。
HRM想做的,正是这件事:把草稿纸从嘴上拿下来,放回模型的脑子里。
这就是latent reasoning,潜空间推理。不是让模型输出更长的思维链,而是让模型在输出之前,在内部状态里完成多轮计算。
这也是Sapient 从一开始押注HRM的原因。
Sapient押注的从来不是“小模型”,而是HRM(Hierarchical Reasoning Model),分层推理模型。
在大多数团队仍然围绕Transformer做参数、数据和训练技巧优化时,Sapient选择把问题推到更底层:
如果智能不是只来自规模扩张,而是来自计算过程的组织方式,那么模型架构本身是否应该被重新设计?
HRM的核心思想,是让模型在输出之前,能够在潜空间中进行多轮、分层、递归的状态更新。
2025年,Sapient推出HRM-Symbolic。
这个模型主要面向数独、迷宫、ARC-AGI等封闭、可验证、强推理任务。这类任务有明确规则、明确状态空间、可验证答案,对组合搜索和多步推理要求极高。
因此,它们非常适合回答第一个问题:
分层递归推理这条架构路线,到底能不能行?
HRM的原始论文里,一个27M参数模型在没有预训练、没有CoT数据、只用约1000个训练样本的情况下,在Sudoku-Extreme、Maze-Hard和ARC-AGI等强推理任务上取得了非常突出的结果。
这一步先回答了一个问题:
在封闭、可验证、强推理任务里,HRM这条路线能不能行?
答案是:能。
但这还不够,因为数独不是语言,迷宫也不是开放世界。
于是HRM-Text回答了第二个更难的问题:
当任务进入自然语言世界,HRM还行不行?
这比简单放大模型更难。
因为语言不是数独。语言更开放、更模糊、更知识密集,输出形式更灵活,训练也更容易不稳定。
所以HRM-Text的意义,不是把HRM-Symbolic放大一点而已。
它是在验证分层递归推理这套架构,能不能进入基础语言模型。
从HRM-Symbolic到HRM-Text,Sapient做的不是一次模型发布,而是一条技术路线的连续推进:
先在封闭推理任务中验证架构假设,再把架构扩展到开放语言环境,同步开放论文、代码、模型权重和训练方法,让这条路线可以被复现、质疑、比较和继续验证。
这也是Sapient应该被放到更重要位置的原因。
它不是在追随行业已有的答案,而是在提前提出问题,并把一个原本可能停留在理论讨论中的方向,推进成了可运行、可开源、可验证的模型系统。
标准Transformer更像一条流水线,输入进来,一层一层往前走,每一层处理一次,最后输出。
增加能力的一种直接方式,就是增加层数、参数和训练数据。
HRM的思路不一样,它在模型内部放了两个以不同节奏工作的模块:
一个是高层模块H,一个是低层模块L。你可以把它理解成两个脑区。
H是战略脑。它更新得慢,负责把握整体方向、维持长期上下文、决定当前应该往哪里想。
L是执行脑。它更新得快,负责局部计算、细节修正、一步步把问题往前推。
关键在于,H和L不是两个外部Agent,也不是两个模型互相发消息。它们在同一个神经网络里,在同一个潜空间中,反复更新同一份内部状态。这就是HRM和普通“多智能体套壳”的区别。
普通多智能体系统,很多时候是几个LLM用自然语言互相聊天。HRM则是在模型内部完成分层递归计算。
可以打个比方:标准Transformer像一篇文章依次交给30个编辑,每个人只改一次。HRM更像两组编辑反复打磨同一份稿子:一组快速改细节,一组慢慢把握整体方向。最后输出之前,模型已经在脑内完成了多轮修正。
这也是HRM-Text和普通小模型最大的区别:
它不是只靠参数数量获得能力,而是让有限参数参与更深的有效计算。
HuggingFace模型卡也把HRM-Text描述为H/L双时间尺度递归架构:高层slow、低层fast,在同一输入embedding上反复迭代,从而在有限参数量下获得更深的有效计算。
换句话说,HRM-Text不是在模型外面拼接一个规划器,而是把分层递归计算内建进模型本身。
它改变的是模型“怎么算”。
参数没有无限变大,但计算过程变深了。这就像一个人不是多背几本书,而是学会了在脑子里多转几圈。
HRM-Text到底做对了什么?
如果把HRM-Text讲得太技术,很容易变成论文摘要。
但它真正做对的事,可以用三句话讲清楚。
第一,它改变了模型“怎么算”。
HRM-Text不是简单堆更多层,而是让模型在输出前做多轮内部递归计算。参数没有无限变大,但计算过程变深了。
第二,它改变了模型“学什么”。
大多数语言模型训练时,会预测整个文本序列里的每一个token。
问题、提示、上下文、答案,统统要预测。
HRM-Text更直接,它用instruction-response数据从零训练,但只对回答部分计算损失。
这不意味着指令部分没有用。指令仍然作为上下文参与注意力计算,回答部分的损失也会反向影响模型如何理解指令。
但模型不再被要求学习“预测题目本身”,而是把训练信号更集中地用于生成答案、完成任务。
直观理解就是,老师批卷子时,不再给“抄题”打分,只看你答得对不对。这样训练信号会更集中地落在任务完成上,而不是平均分散在整段文本里。
这背后配套的是PrefixLM attention mask。
指令部分可以充分整合上下文;回答部分再按因果生成方式输出。结果就是,在decoder-only的实现里,做出了一种近似encoder-decoder的效果。
这部分的关键不是“少预测一些token”这么简单,而是训练信号被重新分配了。模型更集中地学习如何完成任务,而不是平均地学习整个文本序列。
第三,它解决了递归训练容易崩的问题。
递归架构不是新概念。
难点在于,循环越深,训练越容易不稳定。同一组模块被反复调用后,激活值方差可能累积,梯度也更容易消失或爆炸。
HRM-Text引入MagicNorm和warmup deep credit assignment,让模型在多轮递归中保持激活稳定,并逐步加深信用分配。
通俗讲,不是一上来就让模型为所有深层递归步骤负责。而是先让它学会短路径上的内部计算,再慢慢把责任扩展到更深的推理过程。
这说明HRM-Text不是简单把同一层重复跑几遍,而是在系统性解决递归计算如何进入语言模型的问题。
这三件事合起来,才是HRM-Text的核心:
所以HRM-Text不是一个单点trick,它是一套新的基础模型设计方法,把内部计算深度、任务完成目标和稳定递归训练放在同一个系统里共同设计。
光说不练假把式,HRM-Text的几个改动叠加后,带来了明显提升。
在相同训练FLOPs条件下,ARC-Challenge从51.9提升到81.9;MATH从35.4提升到56.2;GSM8K从48.4提升到84.5。
这说明HRM-Text的表现不是来自某个单点trick,而是架构、训练目标和训练方法共同作用的结果。
它真正做对的,是把模型“怎么算”、“学什么”、“如何稳定训练”放在一起重新设计。
这也是Sapient这套路线和普通小模型路线最大的区别:
它不是单纯把模型做小,而是重新定义了有限参数如何参与更深层的内部计算。
数据量上,HRM-Text仅使用约40B unique tokens训练。考虑重复采样后,实验表中的总训练量约60B tokens。
对比下来,Llama 3.2 3B使用约9T tokens,是它的225倍;Qwen3系列2B使用约36T tokens,更是达到约900倍量级。
但在多个reasoning-heavy benchmarks上,HRM-Text已经可以和一批2B到7B的主流开源模型放到同一张表里比较。
这才是HRM-Text真正反常的地方:
它不是用更多参数、更长训练、更大数据,把旧路线继续往前推一点。它是用新的计算结构,把有限参数的有效计算深度重新拉起来。
当然,HRM-Text这样的结果,一定会引发外界对训练数据和评测数据污染的关注。Sapient对此做了系统验证。
HRM-Text只使用公开且可追溯来源的数据进行训练,并针对评测集进行了严格的数据污染分析。在更严格的clean split条件下,模型仍然保持优势结果。
这说明它的表现不是来自简单的测试集泄漏,而是来自架构和训练方法本身的提升。
也正因此,HRM-Text的意义不是“1B模型已经赢了”。
而是它让行业看到了:模型能力增长,除了参数、数据和算力之外,也许还有另一个更底层的变量——计算结构。
HRM-Text发布前后,还有一个很值得注意的信号。
图灵奖得主Yoshua Bengio作为共同作者参与了Generative Recursive Reasoning Models,也就是GRAM。
这篇论文不是继续在传统Transformer上堆规模,而是把recursive reasoning、latent reasoning和generative modeling放到了一起。
更准确地说,GRAM不是泛泛意义上的“相似方向”,而是在核心计算骨架上高度复用了HRM的设计。
对比两者结构可以看到,HRM 中最关键的几个元素,在GRAM中几乎都能找到对应关系。
第一,高层状态。
HRM 有高层模块H,用于维持更慢、更稳定、更全局的语义状态。
GRAM中同样存在high-level latent state/high-level recurrent state,用于建模更高层级的推理状态。
第二,低层状态。
HRM有低层模块L,用于快速更新局部计算和细节状态。
GRAM中也有low-level latent state/low-level recurrent state,用于承担更细粒度的递归更新。
第三,双时间尺度。
HRM的核心是H/L双时间尺度:低层模块多次更新,高层模块较慢更新。
GRAM同样采用高低层状态之间的递归交互,形成分层、多步的内部计算过程。
第四,潜空间递归。
HRM不是通过外部文本链条完成推理,而是在潜空间中反复更新内部状态。
GRAM也把推理过程放在latent space中进行递归生成,而不是简单依赖显式文本CoT。
第五,输出前的内部计算。
HRM强调模型在输出前先进行多轮内部计算,GRAM同样强调recursive reasoning,即模型在生成前通过递归状态更新形成更深的推理过程。
换句话说,GRAM并不是另起炉灶。如果去掉GRAM外层新增的概率生成模块,它的底层计算逻辑与HRM高度重合:高层状态、低层状态、潜空间递归、多轮内部更新。
这不是简单的“方向相似”,而是核心架构假设上的高度一致。
当然,GRAM并不只是简单重复HRM。
它在HRM的确定性递归骨架之上,加入了prior、posterior、decoder等概率生成模块,把原本的分层递归推理进一步扩展成概率化、多轨迹的生成式推理框架。
如果说HRM先提出并验证了“高层—低层双时间尺度递归推理”这条路线,那么GRAM更像是在这个骨架上增加了一层generative probabilistic wrapper,让模型能够围绕多个潜在推理轨迹进行生成和采样。
这也是为什么GRAM的出现,反而让HRM的重要性更突出。它不是绕开HRM另起炉灶,而是在HRM已经提出并验证的分层递归骨架上继续加入概率生成机制。
换句话说,Sapient先把“高层—低层双时间尺度递归推理”做成了可运行系统,GRAM则把这套骨架进一步包装成概率化、多轨迹的生成式推理框架。
这意味着,Sapient不只是参与了下一代推理模型的讨论,而是提前给出了一个正在被顶尖研究者复用和扩展的基本结构。
在这个意义上,Sapient的HRM已经不只是一个模型架构名词,而开始成为下一代推理模型研究中的一个参照系。
因此,Sapien在这里的位置不应该被写成“一个被 Bengio点赞的小模型团队”。更准确的写法是:
Sapient率先把HRM这套分层递归推理架构做成了可运行、可开源、可验证的模型系统;而Bengio参与的GRAM,则进一步说明这套架构思想已经被全球顶尖AI研究者看见,并被快速吸收进下一代推理模型的研究框架中。
从这个角度看,HRM-Text的意义不只是一个1B模型跑出了好成绩,而是Sapient提前押中了一条正在被顶尖研究跟进的架构路线。
它不是一个孤立的小模型,它更像是一个早期信号:
AI推理正在从“写出思维链”,转向“形成内部思维结构”。
下一代推理模型,不应该只靠输出更长的文字链条,而应该在潜空间中进行更深的内部计算。
HRM的贡献,是先把高层—低层双时间尺度递归推理做成了可运行、可开源、可验证的模型系统。GRAM则进一步把这种递归潜空间推理推进到概率生成、多轨迹采样的方向。
如果说HRM先提出并验证了“模型在输出前进行分层递归推理”的骨架,那么GRAM更像是在这条路线之上加入了generative probabilistic wrapper。
这也是HRM-Text这次值得被放到更重要位置的原因。
它不是一个孤立的小模型,它更像是下一代推理架构正在转向的信号。
1500美元真正打破的,不只是训练成本
1500美元当然不是终点,它也不意味着基础模型研发已经变得简单。
HRM-Text仍然只是Proof of Concept。
它还不是成熟聊天模型,也没有经过完整的post-training、RLHF或大规模产品化验证。它在知识覆盖、真实开放任务表现、长上下文能力、工具使用能力、规模化能力等方面,都还需要继续检验。
但这个数字真正刺痛行业的地方在于:它让基础模型研发重新出现了另一种可能性。
过去几年,基础模型越来越像一项重工业。更大的GPU集群,更长的训练周期,更复杂的数据工程。于是行业很容易形成一种惯性:
只有巨头才能探索基础模型、只有巨额算力才能验证新架构、只有Scaling才是唯一正解。
HRM-Text的出现不是否定Scaling,Scaling仍然强大。
但它提醒行业:Scaling不是唯一入口。
如果模型架构本身能提高计算效率,如果训练目标能更聚焦,如果模型能把知识存储和推理能力解耦,那么基础模型创新就不一定只能由算力规模定义。
对企业来说,当前AI落地面临的核心问题,不只是模型能力不够,而是训练贵、基础设施重、迭代周期慢、试错成本高。
很多企业并不需要从零训练一个巨型通用模型。它们真正需要的是在特定任务上获得更高效、更可控、更可定制的推理能力。它们需要的是:能读懂企业私有知识、能找到正确资料、能分析复杂系统、能调用工具、能做规划、能验证结果、能在特定任务上持续学习。
HRM-Text提供的启发是:
如果模型架构本身能够提高计算效率,那么企业AI能力建设不必完全依赖更大模型和更重基础设施。
对研究社区来说,HRM-Text的意义则在于,它让更多架构假设有机会被验证。
过去几年,基础模型研发越来越像一项重工业。更大的GPU集群、更长的训练周期、更复杂的数据工程,让大学实验室、创业团队、独立研究者和开源社区,很难直接参与基础模型层面的前沿实验。
真正令人担心的不是成本本身,而是许多不同的技术可能性,可能会在进入充分验证之前就被过滤掉。
当一条路线需要巨额资源才能验证时,行业自然更容易沿着最确定、最主流、最资源密集的方向前进。而那些更早期、更冒险、也可能更具突破性的架构假设,往往更难获得足够实验机会。
Sapient的意义在于,它没有等到巨头先验证这条路线,而是率先把另一种前沿AI路径做成了可以被行业检验的样本。
它没有否定Scaling的力量,但它让行业看到,基础模型创新并不只能被算力规模定义。
架构、训练目标、递归计算和开源验证,同样可以成为推动前沿AI的关键力量。
从这个意义上看,HRM-Text的价值,不是证明小模型会取代大模型,而是提醒行业:
前沿AI不应该只有一种入口。
Sapient对HRM的长期判断,可以概括成一句话:
模型不需要记住一切,但需要学会如何思考、如何查找、如何学习、如何使用信息。
这就是reasoning-knowledge decoupling。
初期,它可以像RAG一样,把外部知识接进来。但更进一步,HRM的目标不是简单检索文档,而是让模型拥有一个更强的推理核心:
知道该查什么,知道去哪里查,知道如何判断信息是否可靠,知道如何把新知识学进当前任务,知道如何制定计划、调用工具、验证结果,知道如何把一个复杂任务真正做完。
这和人更接近。
人也不是把世界上所有知识都背在脑子里。真正聪明的人,是知道问题的结构,知道该找谁、查什么、怎么验证、如何行动。
未来,它可以作为底层推理内核Reasoning Core,扮演很多角色。
比如Reliability Diagnostician:诊断复杂系统稳定性,生成root-cause hypothesis,分析依赖关系、blast radius和rollback plan,并执行安全remediation。
比如System Optimizer:分析系统行为、发现性能瓶颈和资源浪费,自动提出或执行优化计划。
比如Data Organizer:把企业内部杂乱知识、文档、日志、数据库和工作流组织成可检索、可推理、可学习的记忆系统。
比如Tool Calling Director:决定什么时候调用哪个工具、API、模型或数据源,规划调用顺序,验证中间结果,直到任务完成。
这就是HRM和普通聊天模型的区别。
聊天模型的核心问题是:怎么回答用户?
HRM更关心的问题是:怎么完成任务?
从这个角度看,HRM的商业价值也不只是“训练更便宜”。更重要的是,它可能改变企业构建AI能力的方式。
过去,企业想要更强AI,往往只能接入更大的通用模型,再通过提示词、RAG、工具链和Agent框架,把模型能力拼接到业务流程里。
但这种方式的问题也很明显:系统越来越复杂,调用链越来越长,成本越来越高,结果也越来越难验证。
HRM想象的是另一种结构:
底层是更强的推理核心;外部接入知识库、工具、记忆和环境反馈;模型不需要记住一切,但需要知道如何组织任务、如何使用信息、如何验证结果。
这也意味着,HRM的下一步,不只是更会聊天,而是更会工作。
从符号到文本,再到世界模型
HRM的路线也不止语言。
Sapient先从symbolic reasoning开始,用数独、迷宫、ARC-AGI这类封闭、可验证任务证明分层递归推理能跑通。
然后推进到HRM-Text,把这套架构带进自然语言模型。
下一步,很自然就是image、video、audio、robotics和world models。
因为HRM处理的不是某一种数据格式,它处理的是更底层的东西:状态、关系、约束、计划、行动、反馈。
这也是为什么HRM具备omni-modal潜力。
符号、文本、图像、视频、音频、机器人传感器数据,本质上都可以变成模型内部的状态空间。
如果HRM能在不同模态中学习“如何组织状态、如何预测变化、如何规划行动”,它就不只是语言模型,而可能成为世界模型的一种候选架构。
这也是embodied AI最需要的能力。
机器人不能只会回答。机器人需要理解环境,预测后果,制定动作,并在失败后修正。
对这样的系统来说,输出一句漂亮的话没有意义。
真正重要的是:想清楚,然后做对。
所以,HRM-Text的意义并不止于语言模型。它更像是Sapient把HRM从符号推理推向开放语言环境的一次阶段性验证。
如果这条路线继续成立,那么HRM的下一步就不只是文本,而可能是更广义的世界建模:理解状态如何变化、理解行动如何产生后果、理解计划如何被执行、理解失败如何被修正。
这也是为什么,HRM的想象空间不应被局限在“小模型”这个标签里。
真正重要的是,它试图为智能系统提供一个更强的内部计算结构。
更进一步看,HRM背后是Sapient对通用智能的一种长期判断:
先进AI的探索,不应该只是一条被资源规模不断加固的单一路径,而应该是一场由更多研究者、开发者、创业团队和开源社区共同推进的技术进程。
Sapient可以把自己的长期路线概括为:Lean General Intelligence。
这里的Lean,不是“小”,也不是便宜,而是更高效、更可及、更强调计算结构本身。
过去几年,行业已经充分证明了Scaling的力量。但现在,另一个问题正在变得越来越重要:
当训练成本越来越高,Token账单越来越重,Agent越来越复杂,企业越来越需要可控、可验证、可定制的智能系统时,继续扩大模型是不是唯一答案?
HRM给出了另一个答案。
不是让模型背下更多知识,而是让模型拥有更强的推理核心;不是让模型输出更长CoT,而是让模型在潜空间中完成更深计算;不是把所有能力都塞进一个黑箱大模型,而是把推理、知识、工具、记忆和行动重新组织起来。
这就是HRM-Text最重要的意义。
它不是证明1B模型已经赢了,它证明的是AI架构还远远没有定型。
如果说过去几年,行业主线是Scaling。
那么接下来,推理模型可能迎来一个新问题:
模型到底要更大,还是要更会思考?
Sapient的答案,是HRM。
而HRM-Text,是这条路线第一次进入基础语言模型语境后的公开样本。它还早,但它足够重要。
因为它提醒整个行业:AI的未来,不应该只有一条路。
更大的模型会继续重要,但更会思考的模型,可能才是下一轮推理架构真正的入口。
从HRM-Symbolic到HRM-Text,再到Bengio参与的GRAM对HRM骨架的高度复用,分层递归推理已经不再只是Sapient的内部路线,而正在成为下一代推理模型的重要方向。
Sapient的意义,也正在于此:
它不是在追随行业已有的答案,而是在提前给出一个可运行、可开源、可验证的新答案。
如果说过去几年,行业已经充分证明了Scaling的力量,那么Sapient正在提醒行业:AI的未来不应该只有一条路。
而Sapient Intelligence,正是在这条新路上最早给出完整答案的先行者之一。
论文链接:
https://arxiv.org/abs/2605.20613
GitHub链接:
https://github.com/sapientinc/HRM-Text
HuggingFace链接:
https://huggingface.co/sapientinc/HRM-Text-1B