HuggingFace CEO力荐：这个1500美元训出的HRM模型，凭什么火了？

允中发自凹非寺
量子位 | 公众号 QbitAI

好家伙，这次不是模型圈自嗨。

一个训练成本约1500美元、参数量约1B、从零开始预训练的小模型，把HRM推到了下一代推理架构讨论的中心。

HuggingFace联合创始人兼CEO Clem Delangue亲自转发推荐。

图灵奖得主Yoshua Bengio作为共同作者参与的新论文，也走向了同一条latent recursive reasoning路线。

更反常的是，它不是蒸馏，不是微调，也不是在已有大模型能力上套壳。

它就是Sapient Intelligence发布的HRM-Text。

如果只看参数量，它很容易被写成一个熟悉的故事：“小模型又赢了。”

但HRM-Text真正值得注意的地方，不是小，也不是便宜。而是它背后那套HRM架构，正在问一个更底层的问题：

模型到底需要记住全世界，还是需要学会如何思考、如何查找、如何验证、如何行动？

过去几年，大模型行业的默认答案很简单：参数更多，数据更多，训练更久，Token更长。

HRM走的是另一条路。

它不是继续把模型做成一个越来越大的知识仓库，而是试图把模型做成一个更强的推理核心。

大模型像一个背着图书馆的学生，HRM更像一个会解题、会查资料、会复盘、会行动的人。

当然，真正让技术圈认真讨论HRM-Text的，不是一次转发，而是一组很反常的数字。

一个约1B参数模型，在MATH上拿到56.2，在GSM8K上拿到84.5，在ARC-Challenge上拿到81.9，在DROP上拿到82.2。

训练成本约1500美元，16块H100跑了不到两天。

没有post-training，没有RLHF，也没有依赖显式思维链数据。团队同步开放了论文、模型权重和预训练代码。

这意味着，HRM-Text不是在现有大模型能力上做包装，而是在基础预训练阶段，直接验证一种新的架构路线。

这不是又一个“小模型逆袭”的故事。更准确地说，它是一次推理模型的换脑实验：

不让模型说出更多思维链，而是让模型在开口之前，先在脑子里想完。

而这条路线，很快也出现在了更高层级的学术讨论中。

HRM-Text发布前后，图灵奖得主Yoshua Bengio作为共同作者参与发布了《Generative Recursive Reasoning》。论文提出的GRAM，在核心计算结构上高度复用了HRM的分层递归骨架：同样是高层状态、低层状态、双时间尺度、多轮递归更新，只是在此基础上进一步加入概率生成模块。

换句话说，Sapient不是等行业给出答案之后再追随，而是先把一个关键问题抛了出来，并率先拿出了可运行、可开源、可验证的模型系统：

模型能否在输出之前，通过潜空间中的多轮分层递归计算，完成更深层的内部推理？

HRM-Text的问题因此不只是：

一个1B模型为什么能做到这些benchmark？

更关键的问题是：

Sapient是否提前验证了一条下一代推理模型值得认真对待的新路线？

知识不等于智能，CoT也不等于思考

现在的推理模型，很多时候像是在“边说边想”。

Chain-of-Thought把推理过程写成一串token，让模型一步一步输出中间过程。

这当然有用，但问题也很明显：

Token越来越长，账单越来越高；中间一步错了，后面就可能一路错下去；更关键的是，推理过程被绑定在语言表面，模型很容易学到“像推理的文本”，却不一定真的掌握了“推理的结构”。

HRM问的是一个更激进的问题：推理为什么一定要写出来？

人类做很多题，并不是把脑内每一步都说成一句话。我们会在脑子里反复尝试、修正、排除、回退，最后才说出答案。

HRM想做的，正是这件事：把草稿纸从嘴上拿下来，放回模型的脑子里。

这就是latent reasoning，潜空间推理。不是让模型输出更长的思维链，而是让模型在输出之前，在内部状态里完成多轮计算。

这也是Sapient 从一开始押注HRM的原因。

Sapient押注的从来不是“小模型”，而是HRM（Hierarchical Reasoning Model），分层推理模型。

在大多数团队仍然围绕Transformer做参数、数据和训练技巧优化时，Sapient选择把问题推到更底层：

如果智能不是只来自规模扩张，而是来自计算过程的组织方式，那么模型架构本身是否应该被重新设计？

HRM的核心思想，是让模型在输出之前，能够在潜空间中进行多轮、分层、递归的状态更新。

2025年，Sapient推出HRM-Symbolic。

这个模型主要面向数独、迷宫、ARC-AGI等封闭、可验证、强推理任务。这类任务有明确规则、明确状态空间、可验证答案，对组合搜索和多步推理要求极高。

因此，它们非常适合回答第一个问题：

分层递归推理这条架构路线，到底能不能行？

HRM的原始论文里，一个27M参数模型在没有预训练、没有CoT数据、只用约1000个训练样本的情况下，在Sudoku-Extreme、Maze-Hard和ARC-AGI等强推理任务上取得了非常突出的结果。

这一步先回答了一个问题：

在封闭、可验证、强推理任务里，HRM这条路线能不能行？

答案是：能。

但这还不够，因为数独不是语言，迷宫也不是开放世界。

于是HRM-Text回答了第二个更难的问题：

当任务进入自然语言世界，HRM还行不行？

这比简单放大模型更难。

因为语言不是数独。语言更开放、更模糊、更知识密集，输出形式更灵活，训练也更容易不稳定。

所以HRM-Text的意义，不是把HRM-Symbolic放大一点而已。

它是在验证分层递归推理这套架构，能不能进入基础语言模型。

从HRM-Symbolic到HRM-Text，Sapient做的不是一次模型发布，而是一条技术路线的连续推进：

先在封闭推理任务中验证架构假设，再把架构扩展到开放语言环境，同步开放论文、代码、模型权重和训练方法，让这条路线可以被复现、质疑、比较和继续验证。

这也是Sapient应该被放到更重要位置的原因。

它不是在追随行业已有的答案，而是在提前提出问题，并把一个原本可能停留在理论讨论中的方向，推进成了可运行、可开源、可验证的模型系统。

HRM的核心：模型里面长出两个脑区

标准Transformer更像一条流水线，输入进来，一层一层往前走，每一层处理一次，最后输出。

增加能力的一种直接方式，就是增加层数、参数和训练数据。

HRM的思路不一样，它在模型内部放了两个以不同节奏工作的模块：

一个是高层模块H，一个是低层模块L。你可以把它理解成两个脑区。

H是战略脑。它更新得慢，负责把握整体方向、维持长期上下文、决定当前应该往哪里想。

L是执行脑。它更新得快，负责局部计算、细节修正、一步步把问题往前推。

关键在于，H和L不是两个外部Agent，也不是两个模型互相发消息。它们在同一个神经网络里，在同一个潜空间中，反复更新同一份内部状态。这就是HRM和普通“多智能体套壳”的区别。

普通多智能体系统，很多时候是几个LLM用自然语言互相聊天。HRM则是在模型内部完成分层递归计算。

可以打个比方：标准Transformer像一篇文章依次交给30个编辑，每个人只改一次。HRM更像两组编辑反复打磨同一份稿子：一组快速改细节，一组慢慢把握整体方向。最后输出之前，模型已经在脑内完成了多轮修正。

这也是HRM-Text和普通小模型最大的区别：

它不是只靠参数数量获得能力，而是让有限参数参与更深的有效计算。

HuggingFace模型卡也把HRM-Text描述为H/L双时间尺度递归架构：高层slow、低层fast，在同一输入embedding上反复迭代，从而在有限参数量下获得更深的有效计算。

换句话说，HRM-Text不是在模型外面拼接一个规划器，而是把分层递归计算内建进模型本身。

它改变的是模型“怎么算”。

参数没有无限变大，但计算过程变深了。这就像一个人不是多背几本书，而是学会了在脑子里多转几圈。

HRM-Text到底做对了什么？

如果把HRM-Text讲得太技术，很容易变成论文摘要。

但它真正做对的事，可以用三句话讲清楚。

第一，它改变了模型“怎么算”。

HRM-Text不是简单堆更多层，而是让模型在输出前做多轮内部递归计算。参数没有无限变大，但计算过程变深了。

第二，它改变了模型“学什么”。

大多数语言模型训练时，会预测整个文本序列里的每一个token。

问题、提示、上下文、答案，统统要预测。

HRM-Text更直接，它用instruction-response数据从零训练，但只对回答部分计算损失。

这不意味着指令部分没有用。指令仍然作为上下文参与注意力计算，回答部分的损失也会反向影响模型如何理解指令。

但模型不再被要求学习“预测题目本身”，而是把训练信号更集中地用于生成答案、完成任务。

直观理解就是，老师批卷子时，不再给“抄题”打分，只看你答得对不对。这样训练信号会更集中地落在任务完成上，而不是平均分散在整段文本里。

这背后配套的是PrefixLM attention mask。

指令部分可以充分整合上下文；回答部分再按因果生成方式输出。结果就是，在decoder-only的实现里，做出了一种近似encoder-decoder的效果。

这部分的关键不是“少预测一些token”这么简单，而是训练信号被重新分配了。模型更集中地学习如何完成任务，而不是平均地学习整个文本序列。

第三，它解决了递归训练容易崩的问题。

递归架构不是新概念。

难点在于，循环越深，训练越容易不稳定。同一组模块被反复调用后，激活值方差可能累积，梯度也更容易消失或爆炸。

HRM-Text引入MagicNorm和warmup deep credit assignment，让模型在多轮递归中保持激活稳定，并逐步加深信用分配。

通俗讲，不是一上来就让模型为所有深层递归步骤负责。而是先让它学会短路径上的内部计算，再慢慢把责任扩展到更深的推理过程。

这说明HRM-Text不是简单把同一层重复跑几遍，而是在系统性解决递归计算如何进入语言模型的问题。

这三件事合起来，才是HRM-Text的核心：

架构负责“怎么想”。目标负责“学什么”。训练方法负责“想得深还不崩”。

所以HRM-Text不是一个单点trick，它是一套新的基础模型设计方法，把内部计算深度、任务完成目标和稳定递归训练放在同一个系统里共同设计。

光说不练假把式，HRM-Text的几个改动叠加后，带来了明显提升。

在相同训练FLOPs条件下，ARC-Challenge从51.9提升到81.9；MATH从35.4提升到56.2；GSM8K从48.4提升到84.5。

这说明HRM-Text的表现不是来自某个单点trick，而是架构、训练目标和训练方法共同作用的结果。

它真正做对的，是把模型“怎么算”、“学什么”、“如何稳定训练”放在一起重新设计。

这也是Sapient这套路线和普通小模型路线最大的区别：

它不是单纯把模型做小，而是重新定义了有限参数如何参与更深层的内部计算。

数据量上，HRM-Text仅使用约40B unique tokens训练。考虑重复采样后，实验表中的总训练量约60B tokens。

对比下来，Llama 3.2 3B使用约9T tokens，是它的225倍；Qwen3系列2B使用约36T tokens，更是达到约900倍量级。

但在多个reasoning-heavy benchmarks上，HRM-Text已经可以和一批2B到7B的主流开源模型放到同一张表里比较。

这才是HRM-Text真正反常的地方：

它不是用更多参数、更长训练、更大数据，把旧路线继续往前推一点。它是用新的计算结构，把有限参数的有效计算深度重新拉起来。

当然，HRM-Text这样的结果，一定会引发外界对训练数据和评测数据污染的关注。Sapient对此做了系统验证。

HRM-Text只使用公开且可追溯来源的数据进行训练，并针对评测集进行了严格的数据污染分析。在更严格的clean split条件下，模型仍然保持优势结果。

这说明它的表现不是来自简单的测试集泄漏，而是来自架构和训练方法本身的提升。

也正因此，HRM-Text的意义不是“1B模型已经赢了”。

而是它让行业看到了：模型能力增长，除了参数、数据和算力之外，也许还有另一个更底层的变量——计算结构。

更大的信号：Bengio团队也开始走向同一条路

HRM-Text发布前后，还有一个很值得注意的信号。

图灵奖得主Yoshua Bengio作为共同作者参与了Generative Recursive Reasoning Models，也就是GRAM。

这篇论文不是继续在传统Transformer上堆规模，而是把recursive reasoning、latent reasoning和generative modeling放到了一起。

更准确地说，GRAM不是泛泛意义上的“相似方向”，而是在核心计算骨架上高度复用了HRM的设计。

对比两者结构可以看到，HRM 中最关键的几个元素，在GRAM中几乎都能找到对应关系。

第一，高层状态。

HRM 有高层模块H，用于维持更慢、更稳定、更全局的语义状态。

GRAM中同样存在high-level latent state/high-level recurrent state，用于建模更高层级的推理状态。

第二，低层状态。

HRM有低层模块L，用于快速更新局部计算和细节状态。

GRAM中也有low-level latent state/low-level recurrent state，用于承担更细粒度的递归更新。

第三，双时间尺度。

HRM的核心是H/L双时间尺度：低层模块多次更新，高层模块较慢更新。

GRAM同样采用高低层状态之间的递归交互，形成分层、多步的内部计算过程。

第四，潜空间递归。

HRM不是通过外部文本链条完成推理，而是在潜空间中反复更新内部状态。

GRAM也把推理过程放在latent space中进行递归生成，而不是简单依赖显式文本CoT。

第五，输出前的内部计算。

HRM强调模型在输出前先进行多轮内部计算，GRAM同样强调recursive reasoning，即模型在生成前通过递归状态更新形成更深的推理过程。

换句话说，GRAM并不是另起炉灶。如果去掉GRAM外层新增的概率生成模块，它的底层计算逻辑与HRM高度重合：高层状态、低层状态、潜空间递归、多轮内部更新。

这不是简单的“方向相似”，而是核心架构假设上的高度一致。

当然，GRAM并不只是简单重复HRM。

它在HRM的确定性递归骨架之上，加入了prior、posterior、decoder等概率生成模块，把原本的分层递归推理进一步扩展成概率化、多轨迹的生成式推理框架。

如果说HRM先提出并验证了“高层—低层双时间尺度递归推理”这条路线，那么GRAM更像是在这个骨架上增加了一层generative probabilistic wrapper，让模型能够围绕多个潜在推理轨迹进行生成和采样。

这也是为什么GRAM的出现，反而让HRM的重要性更突出。它不是绕开HRM另起炉灶，而是在HRM已经提出并验证的分层递归骨架上继续加入概率生成机制。

换句话说，Sapient先把“高层—低层双时间尺度递归推理”做成了可运行系统，GRAM则把这套骨架进一步包装成概率化、多轨迹的生成式推理框架。

这意味着，Sapient不只是参与了下一代推理模型的讨论，而是提前给出了一个正在被顶尖研究者复用和扩展的基本结构。

在这个意义上，Sapient的HRM已经不只是一个模型架构名词，而开始成为下一代推理模型研究中的一个参照系。

因此，Sapien在这里的位置不应该被写成“一个被 Bengio点赞的小模型团队”。更准确的写法是：

Sapient率先把HRM这套分层递归推理架构做成了可运行、可开源、可验证的模型系统；而Bengio参与的GRAM，则进一步说明这套架构思想已经被全球顶尖AI研究者看见，并被快速吸收进下一代推理模型的研究框架中。

从这个角度看，HRM-Text的意义不只是一个1B模型跑出了好成绩，而是Sapient提前押中了一条正在被顶尖研究跟进的架构路线。

它不是一个孤立的小模型，它更像是一个早期信号：

AI推理正在从“写出思维链”，转向“形成内部思维结构”。

下一代推理模型，不应该只靠输出更长的文字链条，而应该在潜空间中进行更深的内部计算。

HRM的贡献，是先把高层—低层双时间尺度递归推理做成了可运行、可开源、可验证的模型系统。GRAM则进一步把这种递归潜空间推理推进到概率生成、多轨迹采样的方向。

如果说HRM先提出并验证了“模型在输出前进行分层递归推理”的骨架，那么GRAM更像是在这条路线之上加入了generative probabilistic wrapper。

这也是HRM-Text这次值得被放到更重要位置的原因。

它不是一个孤立的小模型，它更像是下一代推理架构正在转向的信号。

1500美元真正打破的，不只是训练成本

1500美元当然不是终点，它也不意味着基础模型研发已经变得简单。

HRM-Text仍然只是Proof of Concept。

它还不是成熟聊天模型，也没有经过完整的post-training、RLHF或大规模产品化验证。它在知识覆盖、真实开放任务表现、长上下文能力、工具使用能力、规模化能力等方面，都还需要继续检验。

但这个数字真正刺痛行业的地方在于：它让基础模型研发重新出现了另一种可能性。

过去几年，基础模型越来越像一项重工业。更大的GPU集群，更长的训练周期，更复杂的数据工程。于是行业很容易形成一种惯性：

只有巨头才能探索基础模型、只有巨额算力才能验证新架构、只有Scaling才是唯一正解。

HRM-Text的出现不是否定Scaling，Scaling仍然强大。

但它提醒行业：Scaling不是唯一入口。

如果模型架构本身能提高计算效率，如果训练目标能更聚焦，如果模型能把知识存储和推理能力解耦，那么基础模型创新就不一定只能由算力规模定义。

对企业来说，当前AI落地面临的核心问题，不只是模型能力不够，而是训练贵、基础设施重、迭代周期慢、试错成本高。

很多企业并不需要从零训练一个巨型通用模型。它们真正需要的是在特定任务上获得更高效、更可控、更可定制的推理能力。它们需要的是：能读懂企业私有知识、能找到正确资料、能分析复杂系统、能调用工具、能做规划、能验证结果、能在特定任务上持续学习。

HRM-Text提供的启发是：

如果模型架构本身能够提高计算效率，那么企业AI能力建设不必完全依赖更大模型和更重基础设施。

对研究社区来说，HRM-Text的意义则在于，它让更多架构假设有机会被验证。

过去几年，基础模型研发越来越像一项重工业。更大的GPU集群、更长的训练周期、更复杂的数据工程，让大学实验室、创业团队、独立研究者和开源社区，很难直接参与基础模型层面的前沿实验。

真正令人担心的不是成本本身，而是许多不同的技术可能性，可能会在进入充分验证之前就被过滤掉。

当一条路线需要巨额资源才能验证时，行业自然更容易沿着最确定、最主流、最资源密集的方向前进。而那些更早期、更冒险、也可能更具突破性的架构假设，往往更难获得足够实验机会。

Sapient的意义在于，它没有等到巨头先验证这条路线，而是率先把另一种前沿AI路径做成了可以被行业检验的样本。

它没有否定Scaling的力量，但它让行业看到，基础模型创新并不只能被算力规模定义。

架构、训练目标、递归计算和开源验证，同样可以成为推动前沿AI的关键力量。

从这个意义上看，HRM-Text的价值，不是证明小模型会取代大模型，而是提醒行业：

前沿AI不应该只有一种入口。

HRM的下一步：不是更会聊天，而是更会工作

Sapient对HRM的长期判断，可以概括成一句话：

模型不需要记住一切，但需要学会如何思考、如何查找、如何学习、如何使用信息。

这就是reasoning-knowledge decoupling。

初期，它可以像RAG一样，把外部知识接进来。但更进一步，HRM的目标不是简单检索文档，而是让模型拥有一个更强的推理核心：

知道该查什么，知道去哪里查，知道如何判断信息是否可靠，知道如何把新知识学进当前任务，知道如何制定计划、调用工具、验证结果，知道如何把一个复杂任务真正做完。

这和人更接近。

人也不是把世界上所有知识都背在脑子里。真正聪明的人，是知道问题的结构，知道该找谁、查什么、怎么验证、如何行动。

未来，它可以作为底层推理内核Reasoning Core，扮演很多角色。

比如Reliability Diagnostician：诊断复杂系统稳定性，生成root-cause hypothesis，分析依赖关系、blast radius和rollback plan，并执行安全remediation。

比如System Optimizer：分析系统行为、发现性能瓶颈和资源浪费，自动提出或执行优化计划。

比如Data Organizer：把企业内部杂乱知识、文档、日志、数据库和工作流组织成可检索、可推理、可学习的记忆系统。

比如Tool Calling Director：决定什么时候调用哪个工具、API、模型或数据源，规划调用顺序，验证中间结果，直到任务完成。

这就是HRM和普通聊天模型的区别。

聊天模型的核心问题是：怎么回答用户？

HRM更关心的问题是：怎么完成任务？

从这个角度看，HRM的商业价值也不只是“训练更便宜”。更重要的是，它可能改变企业构建AI能力的方式。

过去，企业想要更强AI，往往只能接入更大的通用模型，再通过提示词、RAG、工具链和Agent框架，把模型能力拼接到业务流程里。

但这种方式的问题也很明显：系统越来越复杂，调用链越来越长，成本越来越高，结果也越来越难验证。

HRM想象的是另一种结构：

底层是更强的推理核心；外部接入知识库、工具、记忆和环境反馈；模型不需要记住一切，但需要知道如何组织任务、如何使用信息、如何验证结果。

这也意味着，HRM的下一步，不只是更会聊天，而是更会工作。

从符号到文本，再到世界模型

HRM的路线也不止语言。

Sapient先从symbolic reasoning开始，用数独、迷宫、ARC-AGI这类封闭、可验证任务证明分层递归推理能跑通。

然后推进到HRM-Text，把这套架构带进自然语言模型。

下一步，很自然就是image、video、audio、robotics和world models。

因为HRM处理的不是某一种数据格式，它处理的是更底层的东西：状态、关系、约束、计划、行动、反馈。

这也是为什么HRM具备omni-modal潜力。

符号、文本、图像、视频、音频、机器人传感器数据，本质上都可以变成模型内部的状态空间。

如果HRM能在不同模态中学习“如何组织状态、如何预测变化、如何规划行动”，它就不只是语言模型，而可能成为世界模型的一种候选架构。

这也是embodied AI最需要的能力。

机器人不能只会回答。机器人需要理解环境，预测后果，制定动作，并在失败后修正。

对这样的系统来说，输出一句漂亮的话没有意义。

真正重要的是：想清楚，然后做对。

所以，HRM-Text的意义并不止于语言模型。它更像是Sapient把HRM从符号推理推向开放语言环境的一次阶段性验证。

如果这条路线继续成立，那么HRM的下一步就不只是文本，而可能是更广义的世界建模：理解状态如何变化、理解行动如何产生后果、理解计划如何被执行、理解失败如何被修正。

这也是为什么，HRM的想象空间不应被局限在“小模型”这个标签里。

真正重要的是，它试图为智能系统提供一个更强的内部计算结构。

Lean General Intelligence：AI的未来不该只有一条路

更进一步看，HRM背后是Sapient对通用智能的一种长期判断：

先进AI的探索，不应该只是一条被资源规模不断加固的单一路径，而应该是一场由更多研究者、开发者、创业团队和开源社区共同推进的技术进程。

Sapient可以把自己的长期路线概括为：Lean General Intelligence。

这里的Lean，不是“小”，也不是便宜，而是更高效、更可及、更强调计算结构本身。

过去几年，行业已经充分证明了Scaling的力量。但现在，另一个问题正在变得越来越重要：

当训练成本越来越高，Token账单越来越重，Agent越来越复杂，企业越来越需要可控、可验证、可定制的智能系统时，继续扩大模型是不是唯一答案？

HRM给出了另一个答案。

不是让模型背下更多知识，而是让模型拥有更强的推理核心；不是让模型输出更长CoT，而是让模型在潜空间中完成更深计算；不是把所有能力都塞进一个黑箱大模型，而是把推理、知识、工具、记忆和行动重新组织起来。

这就是HRM-Text最重要的意义。

它不是证明1B模型已经赢了，它证明的是AI架构还远远没有定型。

如果说过去几年，行业主线是Scaling。

那么接下来，推理模型可能迎来一个新问题：

模型到底要更大，还是要更会思考？

Sapient的答案，是HRM。

而HRM-Text，是这条路线第一次进入基础语言模型语境后的公开样本。它还早，但它足够重要。

因为它提醒整个行业：AI的未来，不应该只有一条路。

更大的模型会继续重要，但更会思考的模型，可能才是下一轮推理架构真正的入口。

从HRM-Symbolic到HRM-Text，再到Bengio参与的GRAM对HRM骨架的高度复用，分层递归推理已经不再只是Sapient的内部路线，而正在成为下一代推理模型的重要方向。

Sapient的意义，也正在于此：

它不是在追随行业已有的答案，而是在提前给出一个可运行、可开源、可验证的新答案。

如果说过去几年，行业已经充分证明了Scaling的力量，那么Sapient正在提醒行业：AI的未来不应该只有一条路。

而Sapient Intelligence，正是在这条新路上最早给出完整答案的先行者之一。

论文链接：
https://arxiv.org/abs/2605.20613
GitHub链接：
https://github.com/sapientinc/HRM-Text
HuggingFace链接：
https://huggingface.co/sapientinc/HRM-Text-1B