罗福莉朱军刘知远安波罕见同台：大模型的下一步，指向物理世界

出品 | 《态度》

作者 | 袁宁

编辑 | 丁广胜

刚刚，中国大模型核心玩家在第八届北京智源大会同台。

6月12日，在“重构世界——中国大模型巅峰对话”圆桌上，智源研究院院长王仲远，与清华大学计算机系教授、生数科技创始人朱军，小米集团 MiMo 负责人罗福莉，清华大学计算机系教授、面壁智能联合创始人兼首席科学家刘知远，南洋理工大学校长讲席教授、人工智能交叉研究院院长安波等嘉宾同台，围绕超级模型能力演进、AI 自进化、智能体、多模态与世界模型等前沿议题展开讨论。

这场对话的核心问题非常直接：超级模型能力还能不能继续涨、智能体是不是下一代入口、AI 能不能自我进化、世界模型如何走向物理世界，以及年轻人该如何面对这场变化。

几位嘉宾的观点也相当密集：

罗福莉认为，当前顶尖模型仍然是 scaling 路线上的“中间产物”，参数、数据、合成数据与强化学习等维度都还没有走到尽头；同时，语言模型会先于世界模型跑通更多路径。

朱军判断，视频模型和世界模型仍远未到达 scaling 边界，未来物理世界智能的关键，在于构建可演化、可交互、可在线学习的环境。

刘知远提出，代码大模型的启示不只是写代码能力变强，而是它率先跑通了数字世界中的数据飞轮；“AI 制造 AI”将是智能革命进入高级阶段的重要标志。

安波则强调，智能体仍处于早期阶段，未来真正的价值会落到垂直行业；而无论是模型自进化还是数据闭环，都不能脱离真实世界反馈。

以下为对话实录，在AI的辅助下，经不改变原意的编辑：

王仲远：今年智源大会圆桌对话的主题是“重构世界”。之所以选择这个主题，是因为我们正站在一个新的历史临界点上：人工智能已经不再只是改造行业的工具，而正在成为重构世界的底层力量。AI Coding、自主智能体、模型自进化，正在打开“AI 创造 AI”的可能；世界模型、具身智能与机器人，则让智能从数字世界进一步延伸到物理世界。未来最重要的竞争，可能是谁能够率先掌握创造智能、驾驭智能，并让智能作用于现实世界的能力。

因此，“重构世界”不再只是一句口号，而是我们必须共同面对的时代命题。当智能成为生产力、创造力，人类的规则、边界和想象力都将被重新定义。

在正式开始之前，请各位嘉宾先简单介绍一下自己，并谈谈近期最关注的技术问题。

罗福莉：大家好，我是罗福莉，目前负责小米 MiMo 团队。今天 AI 的发展非常绚烂，很难用一个简单的词来概括。就我自己而言，近期比较关注的方向，主要是大模型能力继续向前演进，以及模型能力在实际系统中的进一步释放。

朱军：大家好，我是清华大学朱军，同时也参与生数科技的工作。我们关注的方向包括视频模型、世界模型，以及智能如何进一步延伸到物理世界。特别是模型如何理解事件、预测未来，并在物理世界中进行行动，这是我近期非常关注的问题。

刘知远：大家好，我是清华大学刘知远，同时也是面壁智能联合创始人和首席科学家。最近我们比较关注的仍然是大模型的智能应用。随着大模型的智能密度越来越高、能力越来越强，它能够支撑越来越多的终端应用和复杂任务，这是我们持续关注的问题。

安波：大家好，我来自南洋理工大学，也在人工智能交叉研究院工作，并参与一些工业界合作。我们最近比较关注的是，在资源受限、成本受限的情况下，如何通过更好的算法和系统设计，让模型具备更强的推理能力和应用能力。

1、最新模型能力提升，是量变累积，还是已到临界点？

王仲远：现在最新模型的能力仍在快速提升。就在两天前，有公司正式发布了新的高性能模型，在编程能力和智能体能力方面都有大幅跃升。发布案例中提到，一个5000万行代码的代码库迁移，如果由人类团队完成需要一个月，而模型一天就能完成。我想请各位谈谈，如何看待这类最新模型以及 AI Coding 的进展？它依然只是量变势能的累积，还是已经到了某种正向临界点？各位也都有在训练或研究模型，您们是否认为模型能力正在加速提升？

罗福莉：在我看来，当前这些模型仍然是科学 scaling 路径上的一个中间产物。所谓科学 scaling，至少包含几个维度：首先是模型参数规模的继续扩大。我们猜测，目前一些最强模型的参数规模，可能已经达到上一代最大模型的数倍；其次是在预训练、强化学习等阶段，算力投入也有非常大的提升，至少是数量级以上的投入；第三是数据层面的变化。

从 ChatGPT 时代开始，模型训练数据已经从自然互联网文本数据，进入到由人和 AI 共同产生的合成数据阶段。现在合成数据又走到了一个新的量级。过去我们能够获得的文本数据规模有限，而现在 AI 合成数据、交互数据、代码数据等都在把数据规模推向新台阶。

所以，今天看到的强模型，是在参数规模、数据规模、AI 合成数据，以及强化学习与工具使用结合等多个维度自然外延之后产生的结果。

王仲远：所以福莉你认为，它依然还是一个中间模型？

罗福莉：是的。我认为按照这条路径，至少目前看，刚才提到的几个维度都还没有停止。因此它还不是终点，而是在这条持续扩展路线上的阶段性产物。

王仲远：小米最近在模型方面做得非常好，也受到很多关注。从你们看到的趋势来看，模型价值和能力的增长，依然是快速的线性增长，还是某种指数型增长？

罗福莉：我很难精确预估增长曲线。因为我们通常看到，模型能力是以“涌现”的方式出现的。无论在不同实验路径还是实际应用中，很多能力都不是平滑增长，而是在某个阶段突然表现出来。因此，很难用一个非常刻板的曲线去量化它。

王仲远：朱老师，您怎么看？特别是您关注视频模型和世界模型，这些模型的 scaling 边界到了吗？还是说通过更多数据、更大模型，依然可以持续提升能力？

朱军：我自己没有直接训练语言模型，所以对刚才提到的语言模型能力，更多是间接观察。但我看到身边很多老师和学生在使用这些模型后，确实感受到能力有很大的提升。有人甚至会感叹，过去觉得自己还可以当老师，现在模型在某些方面已经很像老师了。结合我们自己做视频模型和世界模型的经验，我认为 scaling 和数据的作用仍然非常明显。过去两年多，视频模型进展非常快。一开始，大家可能看到的更多是一些有趣的演示，但到今天，在部分专业内容生成场景中，视频模型已经能够达到比较接近工业设计和专业制作的标准。

这背后其实也是一条类似的路线：把模型空间做得更细，把数据质量和规模做上去，再通过大规模训练带来整体提升。

至于物理世界和世界模型，我认为也仍然有很大空间。只不过物理世界中的任务和场景可能并不总是需要非常精细、完全精准的模拟。在很多场景下，直观、可用、可行动的模型就已经能够带来很大价值。

王仲远：也就是说，视频模型和世界模型也还远没有到边界？

朱军：是的，视频模型和世界模型仍然在持续扩展过程中，而且潜力还非常大。最近大家关注的一些新模型，虽然仍有一些缺陷或争议，但从架构实验和能力表现上看，确实比之前有明显提升。如果未来能够扩展到更丰富的试验平台，并且更好地利用物理世界数据，我相信这条路线仍然非常重要。今天大家讨论的物理数据获取、数据高效利用，以及如何引入更好的学习机制，其实都还只是刚开始，后面还有很大的探索空间。

王仲远：刘老师，您怎么看 AI Coding 和最新模型能力提升？

刘知远：我认为，这类进展首先体现了可持续 scaling 的力量。它背后的逻辑，是找到了一条可持续的数据飞轮。例如，围绕代码生成，模型可以在全球范围内收集大量反馈，收集用户在实际使用代码生成过程中的数据。这些数据又能够反过来提升模型，形成一个持续发展的强化收益闭环。这对我们是非常重要的启示。

第二，代码本身是数字世界中非常重要的生产力工具。代码大模型能力的升级，会对所有需要代码的行业产生影响，比如工业软件、科学发现等领域。这里面也蕴含着非常重要的创新机会。比如，过去一些被国外公司垄断的工业软件，是否有可能通过代码大模型重写一遍，形成我们自己的国产化生态？这是值得认真思考的方向。

第三，我认为更有启示意义的是，代码大模型之所以能够快速迭代，是因为代码任务完全发生在数字世界中，数据容易形成闭环。Cursor 这类产品的成功，就是找到了代码这样一个重要的垂直方向，并形成了高质量的数据闭环。

进一步设想，人类专业知识其实也分布在很多特殊领域。任何一个专业领域，只要能够快速形成类似的数据闭环，都有可能加速 AI 在该行业中的应用。因此，代码大模型的突破启示我们：应该创新地寻找更多领域中的数据闭环可能性。

王仲远：所以您认为，未来仍然会有很多新领域的机会。只要能够实现 AI 的数据闭环，就可能创造新的价值？

刘知远：是的，关键是找到合适的领域和数据闭环。

王仲远：安老师，您怎么看模型能力演进和数据闭环？

安波：我觉得前面几位老师讲得都很充分。我的看法是，现在模型能力提升很大程度上来自真实使用数据的积累。无论是代码模型还是智能体产品，当用户使用得越多，系统越能获得反馈，模型也就越有机会进一步提升。但这里面有一点很重要：不能完全在一个封闭环境中自我循环。如果模型能力还比较弱，完全封闭地做自我生成、自我训练，可能很难真正融合到真实问题中。还是需要外部世界的反馈，包括用户反馈、客户反馈、真实任务反馈等。

所以，我认为数据闭环很重要，但这个闭环不能只是模型内部的封闭循环，而要和真实世界发生连接。

2、智能体最值得关注的问题是什么？

王仲远：今年上半年，智能体非常热门。很多产品都让普通用户尝试到了智能体的能力。我开场时的一些内容，其实也借助了智能体来写作和整理。对于一个理工背景的人来说，这确实是一种不一样的体验，也提高了知识工作的效率。我想请各位谈谈，对智能体技术和方向的看法。现在产品中最值得关注的问题和技术是什么？

安波：我认为智能体还处在起步阶段，未来还有很长的路要走。现在很多智能体产品，仍然偏通用能力展示。但我认为未来更大的潜力，可能是真正落到工业界和垂直领域，解决大家特别在乎的问题。比如医疗领域，如果有一天智能体能够帮助攻克艾滋病、癌症等重大疾病，那将是非常重要的突破。当然，这条路还很长。

从智能体技术来看，中间有很多环节，包括工具调用、任务分解、流程编排等。现在比较核心的部分，还是如何让智能体在复杂任务求解过程中动态编排、动态运行，并能够根据反馈不断调整。同时，也需要很多基础架构来支撑产品持续向前发展。

目前来看，工程相关的问题非常重要，比如多智能体协作、工作流编排、复杂任务拆解，以及成本和稳定性等问题，都还需要进一步突破。

3、如何看待 AI 自进化和“AI 构建 AI”？

王仲远：随着模型和智能体的发展，AI 自进化也成为一个非常热门的话题。最近也有机构发布内容，提出要构建自我改进的 AI 系统。类似自我改进、自动研发下一代模型、自动写代码、自动优化模型、自动生成数据、自动完成实验等技术，让 AI 开始逐步进入“AI 构建 AI”的阶段。我想听听各位如何看待 AI 的自进化。福莉，你刚才也提到模型自进化，你观察到什么趋势？

罗福莉：坦率地说，上一代模型，尤其是去年大多数顶尖模型，我们认为它的能力上限更多是在“执行”。当指令非常清晰时，它能非常好地完成任务。但到今天，我们发现模型已经开始从执行能力外延到解决更抽象的问题。

以一个完整的科研流程为例，它包括提出假设、设计实验、真正执行实验、设计合理的观测指标、验证实验结果的合理性，最后还需要与同行交流，充分共享研究，再进一步获取新的假设或想法。这是一个完整的研究循环。

现在我们已经能看到，大模型正在从“执行”这一层，逐步外延到能够设计合理的验证指标，验证自己执行结果的准确性，并且能够规划实验流程。

目前模型和顶尖研究员之间的差距，我认为主要还在于提出假设，或者说提出值得验证、值得实验的问题。这背后涉及研究品味、研究判断，以及根据早期结果及时停止没有意义的研究的能力。

但这个差距正在被更强的模型，以及更好的实验系统慢慢逼近。所以我觉得，身处这个时代，看到这个过程发生，是非常令人兴奋的。

王仲远：刘老师，您怎么看 AI 自进化？您们连续两年在大会上也都有关于智能体的观察。

刘知远：这件事我最近一年非常关注。我想从科技发展的角度谈。我们即将迎来的智能革命，可以和历史上的工业革命进行对比。工业革命的核心，是机器替代人的重复体力劳动。而工业革命进一步发展的标志，是机器能够制造机器，也就是说连机器制造本身都不再完全需要人的参与。

那么智能革命的核心，就是用 AI 替代人的机械性、重复性的脑力劳动。从这个角度来看，用 AI 制造 AI 是一定会发生的事情，也是人工智能发展到高级阶段的标志。

工业革命用了几百年时间，才走到用机器制造机器。而从大模型出现到今天，时间其实并不长。因此，这一轮智能革命的速度非常值得关注。

当然，AI 制造 AI 本身还需要很多研究课题。随着 AI 技术不断提升，我们也需要进一步明确其中有哪些关键问题，并对这些问题进行探索和突破。

王仲远：刚才您提到一个很好的类比：AI 开始处理人类大脑中重复性的思考能力。我们说“AI for AI”，看起来是确定会发生的事情。那么有没有可能进一步发展到 AI 自己决定制造什么样的 AI？也就是说，AI 是否可能在更高层面上驱动 AI？

刘知远：我理解，所有科技系统最外层的目标和方向，仍然应该由人来驱动。当我们把“AI 制造 AI”做好之后，如何决定制造什么样的 AI、如何让 AI 服务社会，这些最核心的目标仍然应当由人来决定。

人作为社会主体，其主体性和主观能动性，仍然是整个技术发展的核心驱动力。AI 与 AI 之间可以形成制造和优化关系，但最外层的价值判断和方向选择，我认为仍然应由人来驱动。

王仲远：安老师，您是否相信 AI 自进化？

安波：这个问题和前面讲的数据闭环有相似之处。我个人认为，在 AI 能力还比较弱的时候，完全封闭的自进化很难成立。如果 AI 只是在一个封闭环境里自我生成、自我训练、自我强化，可能会出现问题。真正有效的路径，还是需要外部反馈。比如 Cursor 等产品，背后也用了大量来自员工、客户和真实用户的数据反馈。

所以，完全封闭地搞数据和自进化，我认为不一定能够真正融合到真实问题中。AI 自进化可以发生，但它不能脱离真实世界的反馈。

4、世界模型是否是通向更广泛智能的路径？

王仲远：我们看到，大模型和 AI Coding 的进步很快。但现实的物理世界是多模态、全模态的，除了文字之外，还有声音、时间、空间等维度。朱老师刚才也提到了世界模型。像视频生成类模型，现在也经常被用“世界模型”来表达。我想请朱老师谈谈，对多模态、视频模型和世界模型的看法。它是不是实现更广泛智能的另一条重要路径？

朱军：从信息流的角度来看，AI 研发和智能提升一定需要额外的信息进入系统。一种情况是，系统内部的知识还没有学完。比如语言、图像、视频等数据，互联网上已经有很多，但我们还没有完全用好。在这种情况下，通过继续利用这些数据，仍然可以看到很大进步。

但如果放到物理世界中，情况会复杂得多。物理世界本身是开放的，不是一个固定数据集。很多场景还没有被充分数字化，我们也没有把数据完全准备好。因此，要进入物理世界，就必须花很多功夫采集数据、构建环境。

从长远来看，我认为物理世界中的智能发展，会涉及在线学习、制度演化、环境演化等问题。这会比纯数字世界更加复杂，也更有想象力。

在很多开放场景中，我们并没有一个清晰、单一的优化目标。过去传统人工智能的做法，是定义清晰边界，把问题明确化，再用专有数据训练。今天更有效的方式，可能是先构建一个通用基模型，让它学到60% 的能力。大家不要一开始期望太高，但如果第一步能做到60%，很快就可能到70%、80%，然后再通过真实物理世界中的实验和交互继续提升。

我们在2020年做方向规划时，就提出过“物理智能化”的想法。当时我们设想，要构建一个可演化、可进化、可发育的环境，让智能体进入其中学习。这个学习过程也不应该是完全封闭的，它还可以走出来，与真实世界交互，再让模拟环境不断更新。

今天大家讨论的世界模型，在某种程度上就是在实现这样的想法。未来它不一定是一条完全通用的路线，更可能是在不同场景下形成不同的模型和系统。关键是要把模拟、交互、学习和真实世界反馈结合起来。

5、重构世界最可能的路径是什么？

王仲远：今天这场圆桌的主题是“重构世界”。刚才我们讨论中也看到很多可能性：在数字世界中，因为 AI 基础能力不断提升，AI Coding 等技术正在重构数字世界；AI 自进化可能进一步重构数字世界；而另一条路径，是 AI 破茧而出进入物理世界，或者我们从物理世界出发，重新思考模型如何建设，如何收集更多数据。请各位谈谈，您们怎么看重构世界最有可能的路径？自己更相信哪一条更快、更能够改变世界？

罗福莉：我目前看到的，是语言模型和世界模型大概率会继续往前走。现阶段语言模型走得更快一些，因为我们能够更好地从数字世界中还原智能诞生的环境。在这样的环境中，可以构造比较好的系统来驱动模型发挥更高上限，并通过奖励机制激励模型自我提升。这条路径在数字世界中已经正在发生，也是一条主要路径。

但在世界模型上，我认为目前仍处在较早期探索阶段。我比较关注的是，世界模型是否能够首先创造一个非常高效的世界模拟器。效率是其中非常关键的问题。

如果未来能够有一个高效的生成器，从视频角度重构整个世界，那么我们就可以在这个生成器基础上，再叠加一套能够触达现实生活中更复杂任务的脚手架系统。语言模型和世界模型，未来有可能在这个层面上互通。

但目前看，语言模型会先行，路径也探索得更清楚。世界模型则还需要解决基础架构、高效模型、真实世界奖励系统，以及如何在这套系统中进行强化学习等问题。

朱军：我同意刚才的判断。语言模型整体上对其他方向有很多启发，因为它是最早、也最成熟的一类基础模型。如果看视频模型和世界模型，我认为二者关系非常紧密。世界模型的目标大致包括几个方面：理解当前状态，预测和想象未来，以及基于这些理解去行动。

从建模角度看，我们需要数据和架构。而今天与世界最相关、最容易获得、规模最大的数据，很大程度上就是视频数据。视频记录了大量关于世界的信息。例如电影，过去是演员先在物理世界中表演，然后被记录下来；现在视频生成模型则有希望改变这种记录和生成方式。

视频模型已经在复杂理解和内容生成方面展现出能力。继续往前走，它可以给世界模型提供更多基础能力。

当然，视频模型和语言模型的效率还不能直接类比。视频生成看起来计算量很大，因为要把像素渲染出来；但对于机器智能来说，如果目标不是给人看，而是完成任务，模型未必需要把所有像素都渲染出来。它可能只需要在内部模型中进行思考和推演，最终输出可用结果即可。

所以这里仍然有很多空间。现在最优先的事情，还是把模型质量推上去。当质量达到较高水平后，再通过各种手段把模型做小，或者做成特定场景的模型和系统，进一步部署到实际应用中。

6、AI 发展太快，年轻人应该如何应对？

王仲远：最后一个问题想聊聊年轻人。一方面，我们看到越来越多优秀年轻人加入 AI 企业和科研前沿，很多青年科学家已经开始承担重要任务。智源研究院近期也引进了多位青年科学家，让年轻人挑大梁，给他们展示和成长的平台。另一方面，很多年轻人也很焦虑。AI 发展太快，要学的东西太多，世界变化也太快。许多传统技能和职业都在发生变化。请各位嘉宾给青年人一些建议。

罗福莉：我自己的建议很简单：保持探索欲和好奇心。在当下这个阶段，AI 进展实在太快了。我们每个人都需要不断思考，人和 AI 各自应该发挥什么样的优势。在这其中，我认为最稳定不变的特质，就是探索欲和好奇心。

所以我给年轻人的建议是：保持好奇心，更极致地使用 AI 和最新的大模型。在这个过程中，需要大量试错。通过试错，培养自己独特的判断力、审美能力，以及做研究和做事情的品味。这可能是这个时代年轻人比较好的成长路径。

朱军：这个问题我在培养学生时也经常思考。现在技术飞速发展，对所有从业者都是一样的挑战。很多学生会问：技术进步这么快，我该怎么竞争？该怎么学习？我觉得在大潮变革中，还是要找好自己的位置。

我们在书院培养学生时，希望打造 AI 时代的成长环境，让学生从第一天开始就积极拥抱 AI，面向未来去突破。对所有年轻人来说，也是一样的。

如果大家感到焦虑，也不用过分焦虑，因为你身边的人可能比你更焦虑。关键是积极拥抱它、使用它、学习它。其实每个人都在学习，包括我们老师也在不断更新自己的知识，才能继续给学生讲课。

刘知远：我带研究生已有十多年，如果总结给青年同学的建议，我觉得有三点。第一，敢为人先。未来我们要面对很多全新的问题，这些事情还没有发生，也没有现成答案。真正大的创新往往不是共识性的。如果全世界都在做一件事，它未必还是真正的创新。真正要做出全新的东西，往往需要反共识，需要在别人还没有看到、还没有做起来的时候，就敢于去做。

第二，能够坚持。当你做出不同选择时，一定会遭遇质疑、否定和不支持。能不能坚持下来，非常关键。

第三，持续自我否定。当你已经做出一定成绩后，能不能不躺在过去的成绩上，能不能准确认识未来趋势，并及时否定自己、调整自己、做新的尝试，也非常重要。

对青年同学而言，我希望这三点能够有所帮助。

安波：这个问题很复杂，也和更宏观的人生选择有关。如果从比较现实的角度看，很多人学习是为了毕业、找工作、进入好的赛道、获得认可和成绩。从这个角度来说，前面几位老师讲得很好：要做重要的事情，而不是只做最火的事情。

我看到一些博士毕业生，有的人很好找工作，有的人却找不到工作。关键不只是学历，而是你做的问题是否重要，是否在正确的方向上。

所以我认为，选对方向、做重要的问题特别重要。现在学历本身没有以前那么重要。你是本科毕业、高中毕业，还是博士毕业，并不是最关键的；关键是你会什么，能不能在一线真正做出东西。

另外，在今天这个时代，大家都需要共同学习。世界变化太快，你不能只依靠过去的知识体系。要不断和前沿的人交流，不断学习新的东西。最重要的是找到正确方向，并真正具备解决问题的能力。

王仲远：非常感谢各位嘉宾。刚才大家也都谈到，整个世界变化太快，所以青年人也不必过度焦虑。因为在座的各位嘉宾，也同样深感这种变化。也许若干年之后，当我们回望今天，真正值得关注的并不一定是某一次技术发布，或者某一个模型发布，而是在智源大会这样的平台上，我们能够在这个时间点共同讨论人工智能最底层、最根本的问题，以及人类如何与 AI 一起重构未来。

希望今天这场“重构世界”的巅峰对话，能够成为智能未来的一个新的起点。谢谢大家。