根据宾夕法尼亚州立大学、UCSC 和亚马逊最新论文《Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents》,研究人员发现,不同 AI 代理之间的设备更新能力呈现出一种“扁平化”的模式。交叉测试显示,不同模型的设备更新带来的性能增益仅相差 3.1%,即使 9B 规模的 Qwen3.5-9B 模型,其更新在结构上也与旗舰 Claude Opus 4.6 等价。
不过,代理从更新设备中获益的能力呈现非单调趋势。像 Qwen3-32B 这类弱模型会面临两种关键失效模式:“设备激活失败”,其技能加载率只有 25.1%,而更强模型为 96%;以及“设备合规失败”,在延长执行过程中,指令遵循度会从 0.52 急剧降至 0.13。AI 研究员 Elvis Sar 指出,他在编码代理实验中也观察到了类似模式,表明计算预算应优先投入执行型代理,而不是进化引擎。