最新研究:9B 模型自我更新技能,以匹配 Claude Opus 4.6 的表现

根据宾夕法尼亚州立大学、UCSC 和亚马逊最新论文《Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents》,研究人员发现,不同 AI 代理之间的设备更新能力呈现出一种“扁平化”的模式。交叉测试显示,不同模型的设备更新带来的性能增益仅相差 3.1%,即使 9B 规模的 Qwen3.5-9B 模型,其更新在结构上也与旗舰 Claude Opus 4.6 等价。

不过,代理从更新设备中获益的能力呈现非单调趋势。像 Qwen3-32B 这类弱模型会面临两种关键失效模式:“设备激活失败”,其技能加载率只有 25.1%,而更强模型为 96%;以及“设备合规失败”,在延长执行过程中,指令遵循度会从 0.52 急剧降至 0.13。AI 研究员 Elvis Sar 指出,他在编码代理实验中也观察到了类似模式,表明计算预算应优先投入执行型代理,而不是进化引擎。

免责声明:本页面信息可能来自第三方,仅供参考,不代表 Gate 的观点或意见,亦不构成任何财务、投资或法律建议。数字资产交易风险较高,请勿仅依赖本页面信息作出决策。具体内容详见声明
评论
0/400
暂无评论