GPT-5.4 在 ARC-AGI 上经过反复记忆摘要后准确率从 100% 降至 54%

根据 Beating,Dylan Zhang 在伊利诺伊大学的博士生进行的一项近期 Agent 记忆研究发现,反复对模型经验进行总结可能会降低性能,而不是提升性能。在 ARC-AGI 任务中,GPT-5.4 在不使用记忆的情况下对 19 道问题实现了 100% 的准确率,但在基于正确解题轨迹进行多轮记忆压缩之后,准确率降至 54%。类似地,在 WebShop 购物任务中,AWM 记忆方法在拥有 8 条专家轨迹时得分为 0.64,但当轨迹增加到 128 条时降至 0.20,并回到基线水平。研究认为,该问题源于过度总结:每一步抽象都会丢失特定细节,并将与任务相关的规则合并进通用指导,最终导致模型性能下降。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明
评论
0/400
暂无评论