出品 | 《态度》
作者 | 袁宁
编辑 | 丁广胜
刚刚,中国大模型核心玩家在第八届北京智源大会同台。
6月12日,在“重构世界——中国大模型巅峰对话”圆桌上,智源研究院院长王仲远,与清华大学计算机系教授、生数科技创始人朱军,小米集团 MiMo 负责人罗福莉,清华大学计算机系教授、面壁智能联合创始人兼首席科学家刘知远,南洋理工大学校长讲席教授、人工智能交叉研究院院长安波等嘉宾同台,围绕超级模型能力演进、AI 自进化、智能体、多模态与世界模型等前沿议题展开讨论。
这场对话的核心问题非常直接:超级模型能力还能不能继续涨、智能体是不是下一代入口、AI 能不能自我进化、世界模型如何走向物理世界,以及年轻人该如何面对这场变化。
几位嘉宾的观点也相当密集:
罗福莉认为,当前顶尖模型仍然是 scaling 路线上的“中间产物”,参数、数据、合成数据与强化学习等维度都还没有走到尽头;同时,语言模型会先于世界模型跑通更多路径。
朱军判断,视频模型和世界模型仍远未到达 scaling 边界,未来物理世界智能的关键,在于构建可演化、可交互、可在线学习的环境。
刘知远提出,代码大模型的启示不只是写代码能力变强,而是它率先跑通了数字世界中的数据飞轮;“AI 制造 AI”将是智能革命进入高级阶段的重要标志。
安波则强调,智能体仍处于早期阶段,未来真正的价值会落到垂直行业;而无论是模型自进化还是数据闭环,都不能脱离真实世界反馈。
以下为对话实录,在AI的辅助下,经不改变原意的编辑:
王仲远:今年智源大会圆桌对话的主题是“重构世界”。之所以选择这个主题,是因为我们正站在一个新的历史临界点上:人工智能已经不再只是改造行业的工具,而正在成为重构世界的底层力量。AI Coding、自主智能体、模型自进化,正在打开“AI 创造 AI”的可能;世界模型、具身智能与机器人,则让智能从数字世界进一步延伸到物理世界。未来最重要的竞争,可能是谁能够率先掌握创造智能、驾驭智能,并让智能作用于现实世界的能力。
因此,“重构世界”不再只是一句口号,而是我们必须共同面对的时代命题。当智能成为生产力、创造力,人类的规则、边界和想象力都将被重新定义。
在正式开始之前,请各位嘉宾先简单介绍一下自己,并谈谈近期最关注的技术问题。
罗福莉:大家好,我是罗福莉,目前负责小米 MiMo 团队。今天 AI 的发展非常绚烂,很难用一个简单的词来概括。就我自己而言,近期比较关注的方向,主要是大模型能力继续向前演进,以及模型能力在实际系统中的进一步释放。
朱军:大家好,我是清华大学朱军,同时也参与生数科技的工作。我们关注的方向包括视频模型、世界模型,以及智能如何进一步延伸到物理世界。特别是模型如何理解事件、预测未来,并在物理世界中进行行动,这是我近期非常关注的问题。
刘知远:大家好,我是清华大学刘知远,同时也是面壁智能联合创始人和首席科学家。最近我们比较关注的仍然是大模型的智能应用。随着大模型的智能密度越来越高、能力越来越强,它能够支撑越来越多的终端应用和复杂任务,这是我们持续关注的问题。
安波:大家好,我来自南洋理工大学,也在人工智能交叉研究院工作,并参与一些工业界合作。我们最近比较关注的是,在资源受限、成本受限的情况下,如何通过更好的算法和系统设计,让模型具备更强的推理能力和应用能力。
1、最新模型能力提升,是量变累积,还是已到临界点?王仲远:现在最新模型的能力仍在快速提升。就在两天前,有公司正式发布了新的高性能模型,在编程能力和智能体能力方面都有大幅跃升。发布案例中提到,一个5000万行代码的代码库迁移,如果由人类团队完成需要一个月,而模型一天就能完成。我想请各位谈谈,如何看待这类最新模型以及 AI Coding 的进展?它依然只是量变势能的累积,还是已经到了某种正向临界点?各位也都有在训练或研究模型,您们是否认为模型能力正在加速提升?
罗福莉:在我看来,当前这些模型仍然是科学 scaling 路径上的一个中间产物。所谓科学 scaling,至少包含几个维度:首先是模型参数规模的继续扩大。我们猜测,目前一些最强模型的参数规模,可能已经达到上一代最大模型的数倍;其次是在预训练、强化学习等阶段,算力投入也有非常大的提升,至少是数量级以上的投入;第三是数据层面的变化。
从 ChatGPT 时代开始,模型训练数据已经从自然互联网文本数据,进入到由人和 AI 共同产生的合成数据阶段。现在合成数据又走到了一个新的量级。过去我们能够获得的文本数据规模有限,而现在 AI 合成数据、交互数据、代码数据等都在把数据规模推向新台阶。
所以,今天看到的强模型,是在参数规模、数据规模、AI 合成数据,以及强化学习与工具使用结合等多个维度自然外延之后产生的结果。
王仲远:所以福莉你认为,它依然还是一个中间模型?
罗福莉:是的。我认为按照这条路径,至少目前看,刚才提到的几个维度都还没有停止。因此它还不是终点,而是在这条持续扩展路线上的阶段性产物。
王仲远:小米最近在模型方面做得非常好,也受到很多关注。从你们看到的趋势来看,模型价值和能力的增长,依然是快速的线性增长,还是某种指数型增长?
罗福莉:我很难精确预估增长曲线。因为我们通常看到,模型能力是以“涌现”的方式出现的。无论在不同实验路径还是实际应用中,很多能力都不是平滑增长,而是在某个阶段突然表现出来。因此,很难用一个非常刻板的曲线去量化它。
王仲远:朱老师,您怎么看?特别是您关注视频模型和世界模型,这些模型的 scaling 边界到了吗?还是说通过更多数据、更大模型,依然可以持续提升能力?
朱军:我自己没有直接训练语言模型,所以对刚才提到的语言模型能力,更多是间接观察。但我看到身边很多老师和学生在使用这些模型后,确实感受到能力有很大的提升。有人甚至会感叹,过去觉得自己还可以当老师,现在模型在某些方面已经很像老师了。结合我们自己做视频模型和世界模型的经验,我认为 scaling 和数据的作用仍然非常明显。过去两年多,视频模型进展非常快。一开始,大家可能看到的更多是一些有趣的演示,但到今天,在部分专业内容生成场景中,视频模型已经能够达到比较接近工业设计和专业制作的标准。
这背后其实也是一条类似的路线:把模型空间做得更细,把数据质量和规模做上去,再通过大规模训练带来整体提升。
至于物理世界和世界模型,我认为也仍然有很大空间。只不过物理世界中的任务和场景可能并不总是需要非常精细、完全精准的模拟。在很多场景下,直观、可用、可行动的模型就已经能够带来很大价值。
王仲远:也就是说,视频模型和世界模型也还远没有到边界?
朱军:是的,视频模型和世界模型仍然在持续扩展过程中,而且潜力还非常大。最近大家关注的一些新模型,虽然仍有一些缺陷或争议,但从架构实验和能力表现上看,确实比之前有明显提升。如果未来能够扩展到更丰富的试验平台,并且更好地利用物理世界数据,我相信这条路线仍然非常重要。今天大家讨论的物理数据获取、数据高效利用,以及如何引入更好的学习机制,其实都还只是刚开始,后面还有很大的探索空间。
王仲远:刘老师,您怎么看 AI Coding 和最新模型能力提升?
刘知远:我认为,这类进展首先体现了可持续 scaling 的力量。它背后的逻辑,是找到了一条可持续的数据飞轮。例如,围绕代码生成,模型可以在全球范围内收集大量反馈,收集用户在实际使用代码生成过程中的数据。这些数据又能够反过来提升模型,形成一个持续发展的强化收益闭环。这对我们是非常重要的启示。
第二,代码本身是数字世界中非常重要的生产力工具。代码大模型能力的升级,会对所有需要代码的行业产生影响,比如工业软件、科学发现等领域。这里面也蕴含着非常重要的创新机会。比如,过去一些被国外公司垄断的工业软件,是否有可能通过代码大模型重写一遍,形成我们自己的国产化生态?这是值得认真思考的方向。
第三,我认为更有启示意义的是,代码大模型之所以能够快速迭代,是因为代码任务完全发生在数字世界中,数据容易形成闭环。Cursor 这类产品的成功,就是找到了代码这样一个重要的垂直方向,并形成了高质量的数据闭环。
进一步设想,人类专业知识其实也分布在很多特殊领域。任何一个专业领域,只要能够快速形成类似的数据闭环,都有可能加速 AI 在该行业中的应用。因此,代码大模型的突破启示我们:应该创新地寻找更多领域中的数据闭环可能性。
王仲远:所以您认为,未来仍然会有很多新领域的机会。只要能够实现 AI 的数据闭环,就可能创造新的价值?
刘知远:是的,关键是找到合适的领域和数据闭环。
王仲远:安老师,您怎么看模型能力演进和数据闭环?
安波:我觉得前面几位老师讲得都很充分。我的看法是,现在模型能力提升很大程度上来自真实使用数据的积累。无论是代码模型还是智能体产品,当用户使用得越多,系统越能获得反馈,模型也就越有机会进一步提升。但这里面有一点很重要:不能完全在一个封闭环境中自我循环。如果模型能力还比较弱,完全封闭地做自我生成、自我训练,可能很难真正融合到真实问题中。还是需要外部世界的反馈,包括用户反馈、客户反馈、真实任务反馈等。
所以,我认为数据闭环很重要,但这个闭环不能只是模型内部的封闭循环,而要和真实世界发生连接。
2、智能体最值得关注的问题是什么?王仲远:今年上半年,智能体非常热门。很多产品都让普通用户尝试到了智能体的能力。我开场时的一些内容,其实也借助了智能体来写作和整理。对于一个理工背景的人来说,这确实是一种不一样的体验,也提高了知识工作的效率。我想请各位谈谈,对智能体技术和方向的看法。现在产品中最值得关注的问题和技术是什么?
安波:我认为智能体还处在起步阶段,未来还有很长的路要走。现在很多智能体产品,仍然偏通用能力展示。但我认为未来更大的潜力,可能是真正落到工业界和垂直领域,解决大家特别在乎的问题。比如医疗领域,如果有一天智能体能够帮助攻克艾滋病、癌症等重大疾病,那将是非常重要的突破。当然,这条路还很长。
从智能体技术来看,中间有很多环节,包括工具调用、任务分解、流程编排等。现在比较核心的部分,还是如何让智能体在复杂任务求解过程中动态编排、动态运行,并能够根据反馈不断调整。同时,也需要很多基础架构来支撑产品持续向前发展。
目前来看,工程相关的问题非常重要,比如多智能体协作、工作流编排、复杂任务拆解,以及成本和稳定性等问题,都还需要进一步突破。
3、如何看待 AI 自进化和“AI 构建 AI”?王仲远:随着模型和智能体的发展,AI 自进化也成为一个非常热门的话题。最近也有机构发布内容,提出要构建自我改进的 AI 系统。类似自我改进、自动研发下一代模型、自动写代码、自动优化模型、自动生成数据、自动完成实验等技术,让 AI 开始逐步进入“AI 构建 AI”的阶段。我想听听各位如何看待 AI 的自进化。福莉,你刚才也提到模型自进化,你观察到什么趋势?
罗福莉:坦率地说,上一代模型,尤其是去年大多数顶尖模型,我们认为它的能力上限更多是在“执行”。当指令非常清晰时,它能非常好地完成任务。但到今天,我们发现模型已经开始从执行能力外延到解决更抽象的问题。
以一个完整的科研流程为例,它包括提出假设、设计实验、真正执行实验、设计合理的观测指标、验证实验结果的合理性,最后还需要与同行交流,充分共享研究,再进一步获取新的假设或想法。这是一个完整的研究循环。
现在我们已经能看到,大模型正在从“执行”这一层,逐步外延到能够设计合理的验证指标,验证自己执行结果的准确性,并且能够规划实验流程。
目前模型和顶尖研究员之间的差距,我认为主要还在于提出假设,或者说提出值得验证、值得实验的问题。这背后涉及研究品味、研究判断,以及根据早期结果及时停止没有意义的研究的能力。
但这个差距正在被更强的模型,以及更好的实验系统慢慢逼近。所以我觉得,身处这个时代,看到这个过程发生,是非常令人兴奋的。
王仲远:刘老师,您怎么看 AI 自进化?您们连续两年在大会上也都有关于智能体的观察。
刘知远:这件事我最近一年非常关注。我想从科技发展的角度谈。我们即将迎来的智能革命,可以和历史上的工业革命进行对比。工业革命的核心,是机器替代人的重复体力劳动。而工业革命进一步发展的标志,是机器能够制造机器,也就是说连机器制造本身都不再完全需要人的参与。
那么智能革命的核心,就是用 AI 替代人的机械性、重复性的脑力劳动。从这个角度来看,用 AI 制造 AI 是一定会发生的事情,也是人工智能发展到高级阶段的标志。
工业革命用了几百年时间,才走到用机器制造机器。而从大模型出现到今天,时间其实并不长。因此,这一轮智能革命的速度非常值得关注。
当然,AI 制造 AI 本身还需要很多研究课题。随着 AI 技术不断提升,我们也需要进一步明确其中有哪些关键问题,并对这些问题进行探索和突破。
王仲远:刚才您提到一个很好的类比:AI 开始处理人类大脑中重复性的思考能力。我们说“AI for AI”,看起来是确定会发生的事情。那么有没有可能进一步发展到 AI 自己决定制造什么样的 AI?也就是说,AI 是否可能在更高层面上驱动 AI?
刘知远:我理解,所有科技系统最外层的目标和方向,仍然应该由人来驱动。当我们把“AI 制造 AI”做好之后,如何决定制造什么样的 AI、如何让 AI 服务社会,这些最核心的目标仍然应当由人来决定。
人作为社会主体,其主体性和主观能动性,仍然是整个技术发展的核心驱动力。AI 与 AI 之间可以形成制造和优化关系,但最外层的价值判断和方向选择,我认为仍然应由人来驱动。
王仲远:安老师,您是否相信 AI 自进化?
安波:这个问题和前面讲的数据闭环有相似之处。我个人认为,在 AI 能力还比较弱的时候,完全封闭的自进化很难成立。如果 AI 只是在一个封闭环境里自我生成、自我训练、自我强化,可能会出现问题。真正有效的路径,还是需要外部反馈。比如 Cursor 等产品,背后也用了大量来自员工、客户和真实用户的数据反馈。
所以,完全封闭地搞数据和自进化,我认为不一定能够真正融合到真实问题中。AI 自进化可以发生,但它不能脱离真实世界的反馈。
4、世界模型是否是通向更广泛智能的路径?王仲远:我们看到,大模型和 AI Coding 的进步很快。但现实的物理世界是多模态、全模态的,除了文字之外,还有声音、时间、空间等维度。朱老师刚才也提到了世界模型。像视频生成类模型,现在也经常被用“世界模型”来表达。我想请朱老师谈谈,对多模态、视频模型和世界模型的看法。它是不是实现更广泛智能的另一条重要路径?
朱军:从信息流的角度来看,AI 研发和智能提升一定需要额外的信息进入系统。一种情况是,系统内部的知识还没有学完。比如语言、图像、视频等数据,互联网上已经有很多,但我们还没有完全用好。在这种情况下,通过继续利用这些数据,仍然可以看到很大进步。
但如果放到物理世界中,情况会复杂得多。物理世界本身是开放的,不是一个固定数据集。很多场景还没有被充分数字化,我们也没有把数据完全准备好。因此,要进入物理世界,就必须花很多功夫采集数据、构建环境。
从长远来看,我认为物理世界中的智能发展,会涉及在线学习、制度演化、环境演化等问题。这会比纯数字世界更加复杂,也更有想象力。
在很多开放场景中,我们并没有一个清晰、单一的优化目标。过去传统人工智能的做法,是定义清晰边界,把问题明确化,再用专有数据训练。今天更有效的方式,可能是先构建一个通用基模型,让它学到60% 的能力。大家不要一开始期望太高,但如果第一步能做到60%,很快就可能到70%、80%,然后再通过真实物理世界中的实验和交互继续提升。
我们在2020年做方向规划时,就提出过“物理智能化”的想法。当时我们设想,要构建一个可演化、可进化、可发育的环境,让智能体进入其中学习。这个学习过程也不应该是完全封闭的,它还可以走出来,与真实世界交互,再让模拟环境不断更新。
今天大家讨论的世界模型,在某种程度上就是在实现这样的想法。未来它不一定是一条完全通用的路线,更可能是在不同场景下形成不同的模型和系统。关键是要把模拟、交互、学习和真实世界反馈结合起来。
5、重构世界最可能的路径是什么?王仲远:今天这场圆桌的主题是“重构世界”。刚才我们讨论中也看到很多可能性:在数字世界中,因为 AI 基础能力不断提升,AI Coding 等技术正在重构数字世界;AI 自进化可能进一步重构数字世界;而另一条路径,是 AI 破茧而出进入物理世界,或者我们从物理世界出发,重新思考模型如何建设,如何收集更多数据。请各位谈谈,您们怎么看重构世界最有可能的路径?自己更相信哪一条更快、更能够改变世界?
罗福莉:我目前看到的,是语言模型和世界模型大概率会继续往前走。现阶段语言模型走得更快一些,因为我们能够更好地从数字世界中还原智能诞生的环境。在这样的环境中,可以构造比较好的系统来驱动模型发挥更高上限,并通过奖励机制激励模型自我提升。这条路径在数字世界中已经正在发生,也是一条主要路径。
但在世界模型上,我认为目前仍处在较早期探索阶段。我比较关注的是,世界模型是否能够首先创造一个非常高效的世界模拟器。效率是其中非常关键的问题。
如果未来能够有一个高效的生成器,从视频角度重构整个世界,那么我们就可以在这个生成器基础上,再叠加一套能够触达现实生活中更复杂任务的脚手架系统。语言模型和世界模型,未来有可能在这个层面上互通。
但目前看,语言模型会先行,路径也探索得更清楚。世界模型则还需要解决基础架构、高效模型、真实世界奖励系统,以及如何在这套系统中进行强化学习等问题。
朱军:我同意刚才的判断。语言模型整体上对其他方向有很多启发,因为它是最早、也最成熟的一类基础模型。如果看视频模型和世界模型,我认为二者关系非常紧密。世界模型的目标大致包括几个方面:理解当前状态,预测和想象未来,以及基于这些理解去行动。
从建模角度看,我们需要数据和架构。而今天与世界最相关、最容易获得、规模最大的数据,很大程度上就是视频数据。视频记录了大量关于世界的信息。例如电影,过去是演员先在物理世界中表演,然后被记录下来;现在视频生成模型则有希望改变这种记录和生成方式。
视频模型已经在复杂理解和内容生成方面展现出能力。继续往前走,它可以给世界模型提供更多基础能力。
当然,视频模型和语言模型的效率还不能直接类比。视频生成看起来计算量很大,因为要把像素渲染出来;但对于机器智能来说,如果目标不是给人看,而是完成任务,模型未必需要把所有像素都渲染出来。它可能只需要在内部模型中进行思考和推演,最终输出可用结果即可。
所以这里仍然有很多空间。现在最优先的事情,还是把模型质量推上去。当质量达到较高水平后,再通过各种手段把模型做小,或者做成特定场景的模型和系统,进一步部署到实际应用中。
6、AI 发展太快,年轻人应该如何应对?王仲远:最后一个问题想聊聊年轻人。一方面,我们看到越来越多优秀年轻人加入 AI 企业和科研前沿,很多青年科学家已经开始承担重要任务。智源研究院近期也引进了多位青年科学家,让年轻人挑大梁,给他们展示和成长的平台。另一方面,很多年轻人也很焦虑。AI 发展太快,要学的东西太多,世界变化也太快。许多传统技能和职业都在发生变化。请各位嘉宾给青年人一些建议。
罗福莉:我自己的建议很简单:保持探索欲和好奇心。在当下这个阶段,AI 进展实在太快了。我们每个人都需要不断思考,人和 AI 各自应该发挥什么样的优势。在这其中,我认为最稳定不变的特质,就是探索欲和好奇心。
所以我给年轻人的建议是:保持好奇心,更极致地使用 AI 和最新的大模型。在这个过程中,需要大量试错。通过试错,培养自己独特的判断力、审美能力,以及做研究和做事情的品味。这可能是这个时代年轻人比较好的成长路径。
朱军:这个问题我在培养学生时也经常思考。现在技术飞速发展,对所有从业者都是一样的挑战。很多学生会问:技术进步这么快,我该怎么竞争?该怎么学习?我觉得在大潮变革中,还是要找好自己的位置。
我们在书院培养学生时,希望打造 AI 时代的成长环境,让学生从第一天开始就积极拥抱 AI,面向未来去突破。对所有年轻人来说,也是一样的。
如果大家感到焦虑,也不用过分焦虑,因为你身边的人可能比你更焦虑。关键是积极拥抱它、使用它、学习它。其实每个人都在学习,包括我们老师也在不断更新自己的知识,才能继续给学生讲课。
刘知远:我带研究生已有十多年,如果总结给青年同学的建议,我觉得有三点。第一,敢为人先。未来我们要面对很多全新的问题,这些事情还没有发生,也没有现成答案。真正大的创新往往不是共识性的。如果全世界都在做一件事,它未必还是真正的创新。真正要做出全新的东西,往往需要反共识,需要在别人还没有看到、还没有做起来的时候,就敢于去做。
第二,能够坚持。当你做出不同选择时,一定会遭遇质疑、否定和不支持。能不能坚持下来,非常关键。
第三,持续自我否定。当你已经做出一定成绩后,能不能不躺在过去的成绩上,能不能准确认识未来趋势,并及时否定自己、调整自己、做新的尝试,也非常重要。
对青年同学而言,我希望这三点能够有所帮助。
安波:这个问题很复杂,也和更宏观的人生选择有关。如果从比较现实的角度看,很多人学习是为了毕业、找工作、进入好的赛道、获得认可和成绩。从这个角度来说,前面几位老师讲得很好:要做重要的事情,而不是只做最火的事情。
我看到一些博士毕业生,有的人很好找工作,有的人却找不到工作。关键不只是学历,而是你做的问题是否重要,是否在正确的方向上。
所以我认为,选对方向、做重要的问题特别重要。现在学历本身没有以前那么重要。你是本科毕业、高中毕业,还是博士毕业,并不是最关键的;关键是你会什么,能不能在一线真正做出东西。
另外,在今天这个时代,大家都需要共同学习。世界变化太快,你不能只依靠过去的知识体系。要不断和前沿的人交流,不断学习新的东西。最重要的是找到正确方向,并真正具备解决问题的能力。
王仲远:非常感谢各位嘉宾。刚才大家也都谈到,整个世界变化太快,所以青年人也不必过度焦虑。因为在座的各位嘉宾,也同样深感这种变化。也许若干年之后,当我们回望今天,真正值得关注的并不一定是某一次技术发布,或者某一个模型发布,而是在智源大会这样的平台上,我们能够在这个时间点共同讨论人工智能最底层、最根本的问题,以及人类如何与 AI 一起重构未来。
希望今天这场“重构世界”的巅峰对话,能够成为智能未来的一个新的起点。谢谢大家。