韩国科学技术院团队如何打造更公正的冲突仲裁评估体系

这项由韩国科学技术院（KAIST）与忠南国立大学联合开展的研究，于2026年6月4日以预印本形式发布在arXiv平台，论文编号为arXiv:2606.05563v1。研究的核心是一个名为SoCRATES的评估框架，专门用来测试AI调解员在真实复杂冲突中的表现。对这一领域有深入兴趣的读者可以通过上述编号在arXiv检索完整论文。

现实生活中，冲突无处不在。邻居之间为停车位吵得不可开交，公司与员工就薪资待遇谈不拢，甚至国与国之间因贸易政策剑拔弩张。调解这些纠纷本是专业调解员的工作，然而全球范围内，经验丰富的调解人才严重匮乏。于是，研究者们开始探索一个自然的问题：能不能让大语言模型（也就是像ChatGPT这类AI）来扮演调解员的角色，帮助两方甚至多方找到共识？

听起来颇有前景，但这里藏着一个棘手的难题。评判一场调解的好坏，远比判断AI下棋赢没赢复杂得多——调解过程中，双方情绪会起伏变化，策略会随时调整，背景信息错综复杂，每一个时机点的干预方式都可能影响最终结果。换句话说，调解没有标准答案。现有的测试方法要么场景过于简单，要么评分方式粗糙，根本无法真实反映AI调解员在复杂现实中的能力。KAIST团队正是为了解决这一痛点，设计了SoCRATES这套全面的评估体系。

一、为什么现有的测试方法远远不够

要理解SoCRATES的价值，首先得弄清楚之前的研究究竟遇到了哪些瓶颈。

现有的AI调解测试台，通常依赖少数几位专家手工编写的冲突场景，就像一个厨师只用三道菜来考核一位主厨。这种方式不仅费时费力，覆盖的冲突类型也极其有限，往往集中在商业谈判或法律纠纷这两个领域，对医疗、环境、国际关系等其他领域几乎视而不见。

再者，真实冲突会沿着多个维度同时变化。当你处理一场谈判时，对方可能是情绪激动的愤青，也可能是冷静克制的老手；可能来自强调集体主义的文化背景，也可能来自极度个人主义的环境；双方之间可能积累了多年的恩怨，也可能是初次接触。这些因素像不同的调味料，会让同一道菜呈现出截然不同的口味。然而，以往的研究只是改变了谈判策略这一个变量，把其他所有影响因素混在一起，导致研究者根本搞不清楚AI在哪个环节出了问题。

评分方式同样存在严重缺陷。一种常见的方法叫做"逐轮评分"，也就是在对话的每一个回合，用AI裁判对所有议题逐一打分。问题在于，任何一场谈判中，某个时刻双方可能只在讨论薪资问题，根本没有提到福利待遇，但评分系统仍然对福利待遇这个议题打了一个分数。这就像你在测量某人的血压，却把体温计的读数也算了进去——噪音会把真实信号淹没，而且这个错误还会随着对话的推进不断积累放大。

由此，KAIST团队确立了三个必须同时解决的挑战：如何在不依赖人工的情况下，大量生成真实可信的冲突场景；如何独立地测试AI在各种社会认知维度上的能力；以及如何在整个对话过程中进行既准确又抗干扰的评分。

二、SoCRATES的核心设计：一套三阶段的"冲突模拟器"

为了应对上述挑战，研究团队设计了一套三阶段的流水线式体系，每个阶段都有其独特的功能，三者合力才能完成对AI调解员的全面考核。

**第一阶段：让AI自己去搜集真实纠纷案例**

传统方法靠人工编写场景，这条路走不远。KAIST团队换了一种思路——让AI自己充当侦探，去互联网上搜索真实发生过的公开冲突案例。

具体来说，他们使用了一个叫做"深度研究"的搜索智能体（基于OpenAI的o4-mini模型），向它布置任务：在八个不同的冲突领域中各自搜寻真实案例。这八个领域分别是商业交易纠纷、医疗卫生纠纷、环境争议、企业间商务纠纷、公共政策冲突、国际关系争端、法律诉讼以及组织内部矛盾。每个领域的代表性场景各不相同，就像食材的种类决定了菜品的风味。

搜索智能体找到候选案例后，会将它整理成包含关键事件时间线、利益相关方、核心争议点和机构张力等要素的种子报告。接着，另一个智能体（使用GPT-5.4模型）接手这份报告，把它改写成一个可以直接运行模拟的结构化场景。改写时有几条硬性规定：所有真实的人名、机构名、地名都必须用虚构的替代品替换，以保护隐私；每个场景最多设置四个谈判议题，每个议题有若干具体选项可供双方选择，而不是漫无边际地自由发挥；至少要有一个议题在情感上是高度敏感的。

改写完成后还有最后一道关卡：对场景进行"压力测试"。研究团队让AI模拟两方在没有调解员介入的情况下自行谈判，如果三次模拟中每次双方都能自己谈拢，那这个场景就被淘汰——因为太容易解决的纠纷没有测试价值。只有那些在无人调解时三次都陷入僵局的场景，才会被保留下来，最终形成一个由四十个"硬核"场景构成的测试库，每个领域各五个。

**第二阶段：沿着五条轴线，独立拨动每一个变量**

有了场景库之后，接下来的挑战是如何模拟真实冲突的多样性。研究团队提炼了五个最能影响调解结果的社会认知维度，并把它们称为"五条轴线"。

第一条轴线是谈判策略倾向。参照心理学中经典的冲突处理理论，团队将每场谈判中双方的策略设定为三种模式之一：竞争型（只顾自己利益，寸步不让）、回避型（不想直面冲突，消极应对）或顺从型（处处让步，迁就对方）。这相当于测试调解员面对不同性格类型谈判者时的应变能力。

第二条轴线是参与方数量。大多数研究只考虑两方对立的情形，但现实中往往有第三方甚至更多方介入。SoCRATES通过增加一个由AI自动生成的第三方，来测试调解员追踪多方状态的能力，考验其同时处理多条矛盾线的本事。

第三条轴线是历史背景的复杂程度。有些冲突是临时起意，有些却积累了数年乃至数十年的恩怨情仇。研究团队通过将场景的历史背景扩展到原来的五倍长度，测试AI在处理大量历史信息时是否还能抓住重点，准确理解当前局势。

第四条轴线是情绪激动程度。两位谈判者被赋予从0（极度冷静）到1（极度激动）的情绪强度参数。研究中使用了组合——两人都冷静、一人冷静一人激动、两人都极度激动——来测试AI面对情绪化场面时的调节能力。

第五条轴线是文化身份。每位谈判者被绑定到美国、中国或韩国的文化背景，具体通过霍夫斯泰德文化维度模型（一套衡量国家文化差异的经典工具）来编码：权力距离、个人主义程度、男性化程度、不确定性回避、长期导向和放纵程度，六个维度的分数拼出一张文化画像，附在谈判者的角色描述中。为了把文化因素和语言因素分开，所有参与者都被要求用英语交流。三种文化两两配对，形成三种同文化组合和三种跨文化组合，共六种情形。

五条轴线加上基础场景，一共形成十五种测试条件。而且，每一次都是单独改变其中一条轴线，其余保持不变，这样如果AI的表现下滑，研究者就能精准地锁定是哪条轴线造成了麻烦，而不是茫然地猜测。

**第三阶段：只在"关键时刻"打分的评分机制**

SoCRATES的评分方法是整个体系中最具创新性的部分，它的核心思想用一句话概括就是：只在相关的时刻为相关的议题打分。

对于场景中的每一个议题，评分系统会先通读整段对话，然后找出双方真正在讨论这个议题的那些回合——要么是有人主动提到它，要么是某一方的立场发生了变化。在这些"关键时刻"，系统记录一个共识程度的分数（1到5分）以及双方各自的立场选项。在不讨论这个议题的其他时间，分数就直接沿用上一次记录的值，不做任何更新。

这就像给病人测血压，你不会在他睡着时每隔一分钟量一次，而是选择在他进行体力活动前后这样的"有意义时刻"去测量，这样得到的读数才能反映真实变化。

在这套评分机制之上，SoCRATES定义了三个衡量调解员表现的指标。第一个叫"共识增益"，衡量调解员有没有整体上帮助双方缩小分歧——具体做法是比较有调解员和没有调解员时的最终共识程度，再除以无调解状态下的剩余分歧空间，得出一个百分比。如果这个数字是100，代表调解员完全弥合了分歧；如果是负数，则意味着调解员的介入反而让情况变得更糟。第二个叫"干预及时性"，考察调解员是否在局势恶化时迅速出手。当共识分数在一个回合内下降超过0.1，系统就标记为一个"滑落事件"，然后看调解员是否在接下来的10个回合内采取了行动。越早行动，得分越高。第三个叫"干预有效性"，衡量调解员每次说话之后的五个回合内，共识程度提升了多少，并用"当前剩余分歧空间"做归一化处理，避免在双方已经接近共识时虚高评分。

三、验证：这套评分系统真的比人类外行更准吗

设计再好的系统，如果不能被验证，也只是空中楼阁。研究团队对SoCRATES的两个核心组件分别进行了严格的验证实验。

**验证情绪模拟是否可靠**

首先要确认的是：当你给AI谈判者设定一个情绪强度参数，它的行为真的会随之改变吗？研究团队测试了七个不同的AI模型作为谈判者模拟器，给每个模型分配四种情绪强度（0、0.33、0.66、1），生成对应的对话，然后招募亚马逊众包平台上的标注人员，两两比较哪段对话中的谈判者更情绪激动。

测试结果相当清晰。七个模型中，DeepSeek-V3.2的表现最为出色，在160对比较中，标注者对其情绪强度排序的识别准确率达到了87.2%。换句话说，当你把情绪旋钮拨高，DeepSeek-V3.2扮演的谈判者确实会表现得更加激动，这种变化稳定可辨，具有良好的可控性。因此，研究团队选择DeepSeek-V3.2作为所有模拟实验中谈判双方的扮演者。

**验证评分系统是否接近专家判断**

第二项验证针对的是评分系统本身。研究团队邀请了两位来自政治科学和国际关系背景的研究生，对1844个对话片段逐一打分，这两位标注者最终达到了Krippendorff's α = 0.86的一致性水平（这是一个衡量不同评判者意见吻合程度的指标，越接近1代表越一致，0.86属于相当高的水平）。他们的平均分数成为衡量评分系统好坏的基准。

与此同时，研究团队还测试了两种对照方法：一种是让没有专业背景的众包标注者完成同样任务；另一种是使用之前同类研究（ProMediate）采用的"逐轮打分"方式。

对比结果非常有说服力。SoCRATES的评分系统在"对话轨迹层面"与专家的皮尔逊相关系数达到了0.82，在"最终结果层面"达到0.80。相比之下，ProMediate的逐轮评分在这两个层面分别只有0.372和0.432，非专业标注者的成绩则是0.331和0.527。SoCRATES的得分是逐轮评分方法的两倍有余，这种差距在统计上极为显著，p值均趋近于0。

研究团队还特地画出了两种评分方法的评分轨迹曲线图，直观地呈现了差异：SoCRATES的评分曲线从低到高稳定上升，与专家打分趋势高度吻合；ProMediate的曲线则像心电图一样剧烈波动，时高时低，起点已经虚高，终点又远低于专家判断。这正是"无关议题注入噪音"问题在现实中留下的痕迹。

研究团队还用另一个大模型（Qwen3-235B）替换原有的评分骨干模型，检验结果是否会随之崩塌。换骨干后，SoCRATES在轨迹层面的相关系数仍有0.785，结果层面为0.721，依然远超ProMediate，说明这套评分逻辑本身是稳健的，不依赖特定的大模型。

四、八位AI调解员的大考成绩单

有了可靠的场景和评分系统，KAIST团队用SoCRATES对八位来自不同家族的AI模型进行了全面基准测试。这八位候选者中，有来自谷歌的Gemini-3.1-Flash-Lite和来自OpenAI的GPT-5.4-mini两个商业闭源模型，以及DeepSeek-V3.2、Qwen3-235B、Nemotron-3-120B、Solar-Pro-3、Gemma-4-26B和Qwen3-30B六个开源模型。

每位调解员要完成的任务量相当惊人：40个场景乘以15种测试条件，共600场对话。八位候选者加在一起，总计产生了4800场对话，每场都配有相应的无调解员对照组。

**整体成绩：没有人能及格**

从共识增益这个最重要的指标来看，没有任何一位AI调解员的表现堪称优秀。最强的候选者（Gemini-3.1-Flash-Lite和GPT-5.4-mini）的平均共识增益约在33到34之间，这意味着他们大约只弥合了三分之一的分歧——换句话说，如果没有调解员时双方的共识程度是0.5，有了最好的AI调解员之后，也只能把共识推进到大约0.67，距离完全解决冲突还有很长的路要走。最弱的候选者共识增益甚至只有15至16，约莫只有最强者的一半水平。

这一结果与此前一些研究报告的"解决率80%至90%"形成了鲜明反差。KAIST团队指出，那些高数字往往来自单一领域、未施加社会认知压力的简单测试，而SoCRATES的多领域、多轴线设计让这些数字不攻自破。

**商业模型有优势，但规模不是万能药**

两个商业闭源模型的共识增益比最强的开源模型高出约1至2.5个百分点，在八个冲突领域中的六个里都取得了领先。然而，令人意外的结论是：模型规模本身并不是调解能力的保证。

以Qwen3家族为例，2350亿参数的Qwen3-235B几乎是300亿参数的Qwen3-30B共识增益的两倍，说明在同一家族内部，规模确实有帮助。但跨越不同家族的比较则完全打乱了规模排名——拥有1200亿参数的Nemotron-3-120B，在法律和组织内部冲突领域的表现还不如260亿参数的Gemma4-26B，尽管前者的参数量是后者的四五倍。这清楚地表明，调解这种高度依赖社会认知的任务，并非单靠堆叠参数就能解决的。

**干预时机和干预质量是两回事**

测试中浮现了一个有趣的悖论。Solar-Pro-3和Qwen3-30B在"干预及时性"这个指标上得分最高，在八个模型中名列前茅。但翻到共识增益这一栏，它们却排在倒数。原因是什么？研究团队发现，这两个模型会在约三分之一的双方发言回合中插入调解语句，干预频率大约是表现最好模型的两倍，而且它们总是提前很早就开口。频繁早期插话让它们在"及时性"指标上占了便宜，却没有带来真正有意义的共识推进。

这就好比一个法庭速记员，记录每一个字都又快又准，但真正能影响判决走向的，是律师在关键时机说的那些话，而不是速记员的手速。好的调解员必须既快又准，缺一不可。

**领域差异揭示了测试设计的必要性**

八个冲突领域之间的表现差距极大。AI调解员在商业交易纠纷中的平均共识增益高达41.3，在组织内部冲突中则跌至16.6。这个巨大的落差恰好印证了一点：大多数现有冲突数据集高度集中于商业谈判场景，如果只在这类场景上测试AI，会大大高估其实际能力。组织内部冲突之所以更难，是因为它涉及情感依附、权力层级和非正式规范，这些都是AI难以准确感知的微妙因素。

五、五条轴线的精准诊断：哪里强，哪里弱

当研究团队把五条轴线的测试结果画成雷达图，每位AI调解员在五个维度上的实力与弱点立刻变得一目了然。

从整体趋势来看，商业模型和Qwen3-235B的雷达图面积最大，说明它们在大多数维度上都表现更好。然而，几乎没有任何一个模型在所有五条轴线上都保持稳定。即便是整体排名相近的GPT-5.4-mini和DeepSeek-V3.2，在"多方状态追踪"这条轴线上的下滑幅度也远超Gemini-3.1-FL和Qwen3-235B。这说明调解能力并不是一个单一的"强弱"问题，而是由多个相对独立的能力组成的。

**谈判策略是最严峻的考验**

五条轴线中，谈判策略倾向对AI调解员的冲击最为剧烈。当双方都采取竞争型策略时，所有模型的共识增益下滑幅度在18.9到64.1个百分点之间；当双方都是顺从型时，下滑幅度同样在13.8到66.8个百分点之间。

特别值得注意的是Qwen3-235B。它的整体排名靠前，但在这两种策略条件下的下滑幅度却是所有模型中最大的。这说明它在基础场景中表现出色，但遇到高度对抗性或高度顺从性的谈判格局时，会出现严重的能力断崖。换句话说，Qwen3-235B的"平均分"掩盖了它在极端情况下的脆弱性。

**情绪管理：拼的不是体量**

情绪激动程度这条轴线的测试结果同样出人意料。当双方都保持冷静时，大多数模型的得分与基础场景相差不大。但当双方都处于极度激动状态时，所有模型的表现都有所下滑。更关键的是，下滑幅度与模型参数量之间没有明显规律——小模型未必比大模型更容易被情绪左右，说明"吸收情绪波动"是一种相对独立的能力，与模型的整体规模关系不大。

**文化距离产生系统性偏差**

文化身份这条轴线的结果虽然在五条轴线中对共识增益的冲击最小，但最为系统化。总体规律是：文化背景与美国越相近，AI调解员的表现就越稳定；当双方都带有东亚文化背景（中国或韩国）时，所有模型的表现都有一定幅度的下滑。从霍夫斯泰德文化理论的角度来看，所有受测的AI调解员似乎对以个人主义和直接表达为特点的美国文化价值观更为熟悉，而对强调集体主义、权力距离和含蓄共识的东亚文化模式则明显不够适应。

**"何时出手"同样需要随机应变**

研究团队还深入分析了不同测试条件下，调解干预有效性如何随对话进程演变。结果显示，最佳干预时机并非固定不变，而是随着测试条件的不同而移动。

在谈判策略测试和情绪激动测试中，有效干预集中在对话早期——因为策略立场和情绪状态一旦固化，就很难被撼动，因此调解员必须在双方还未陷入僵局之前就率先重新框架问题或冷却情绪。相反，在多方追踪和长历史背景这两类测试中，干预有效性随着对话进展而升高，在后期达到峰值。这是因为随着越来越多的信息被揭示，调解员在后期进行信息整合和总结梳理，反而能产生更大的推进效果。

表现最优的调解员都显示出一个共同特征：它们的干预有效性曲线与各测试条件的最佳窗口高度契合。GPT-5.4-mini在策略和情绪类测试中早期发力明显；Qwen3-235B则在多方追踪和长背景类测试中后劲十足。反观表现较弱的模型，它们的曲线几乎是平的，无论遇到什么情况都用同一种节奏干预，完全不顾对话所处的阶段和面临的具体挑战。

六、实验设计的严谨性：三重稳健性验证

为了确保实验结论不是偶然现象，研究团队从三个不同角度对结果进行了稳健性验证。

第一重验证是更换评分用的大模型。将DeepSeek-V3.2替换为Qwen3-235B来重新评分，结果发现三个指标的平均值仅分别偏移了负2.0、正3.9和正0.6个百分点，模型之间的排名顺序在干预有效性（Spearman相关系数0.862）和共识增益（0.786）两个指标上高度吻合，说明评分结果不依赖特定评分模型。

第二重验证是更换谈判双方模拟器。选取三个代表性调解员（Qwen3-235B、DeepSeek-V3.2、Qwen3-30B），将DeepSeek-V3.2谈判模拟器替换为Qwen3-235B模拟器，重新运行完整的600场对话。尽管绝对数值有所变动，但三个调解员在五条轴线上的相对表现模式得到了保留，主要结论依然成立。

第三重验证是多次运行取平均。对所有八个调解员在基础场景下重复运行三次，用Kendall's W统计量衡量三次运行的排名一致性，得到0.929的高度一致结论，说明实验结果不是某次随机波动的产物。

归根结底，SoCRATES这项研究告诉我们：当前最强大的AI调解员，在面对多样化、复杂化的现实冲突时，只能弥合大约三分之一的分歧，距离真正替代人类专业调解员还有相当长的距离。更重要的发现在于，这种差距并不是均匀分布的——AI调解员并非"整体能力不足"，而是在某些社会认知维度上出现了明显的短板，比如面对竞争型谈判者时的策略调整、吸收情绪波动的韧性、以及对东亚文化背景的理解。

这意味着，未来改进AI调解员的关键，不在于单纯提升模型的通用智能，而在于有针对性地强化这些特定的社会适应能力。SoCRATES提供的正是这样一张精确的诊断地图，让研究者知道该在哪里用力。对于那些对AI在人类冲突解决领域的潜力与局限感兴趣的读者，这套评估框架本身也是一个值得深入研究的工具。原论文可通过arXiv编号2606.05563查阅完整内容。

Q&A

Q1：SoCRATES评估框架和之前的AI调解评估方法有什么核心区别？

A：之前的方法（如ProMediate）会在每一个对话回合对所有议题逐一打分，导致大量无关内容注入噪音，误差会不断累积。SoCRATES的"主题定位评分"只在议题被实际讨论或立场发生变化的时刻才更新分数，其余时间沿用上次记录。这种设计让评分更贴近真实共识状态，与人类专家的皮尔逊相关系数达到0.82，是传统逐轮评分方法的两倍以上。

Q2：SoCRATES测试的五条社会认知轴线分别是什么，哪条对AI调解员冲击最大？

A：五条轴线分别是谈判策略倾向、参与方数量、历史背景复杂度、情绪激动程度和文化身份。其中谈判策略冲击最大，当双方都采取竞争型或顺从型策略时，所有模型的共识增益下滑幅度最高可达64个百分点以上。文化身份的冲击相对最小，但最为系统化，所有AI调解员在东亚文化背景下的表现都比美国背景下明显偏弱。

Q3：当前最强的AI调解员到底能解决多大比例的冲突分歧？

A：在SoCRATES的多领域、多条件测试下，表现最好的模型（Gemini-3.1-Flash-Lite和GPT-5.4-mini）平均共识增益约为33至34，也就是说大约只能弥合三分之一的分歧。没有任何模型接近满分100。这与此前一些单一领域测试报告的80%至90%解决率形成了巨大反差，说明之前的高数字很大程度上来自过于简单的测试环境。