Sakana AI 与 KPMG 发布 CoffeeBench,90 天 AI 代理交易模拟;GPT-5.5 与 Claude 展示截然不同的策略

据Sakana AI与KPMG Japan Azsa,两家公司推出了CoffeeBench,这是一个由ICML 2026的Agentic AI失效模式研讨会收录的多智能体长期经济学基准。该框架模拟了一个包含两名农民、两名烘焙商和两名零售商的咖啡供应链,要求每个AI模型在90天内通过定价谈判、订单交易和支付结算来运营一家烘焙业务。

对主流模型的横向评估揭示了不同的交易行为:GPT-5.5和Claude Opus 4.7采取主动沟通,频繁谈判价格并执行交易以最大化销售额,而Gemini 3.1 Pro则表现出被动响应性。值得注意的是,Kimi K2.6进行了大量工具调用,但未能执行定价纪律,导致交易量高但利润为零。Claude Haiku 4.5表现出规划与执行的脱节,尽管制定了坚实的策略却反复选择不作为,最终因固定成本累积而遭受巨额亏损。

免责声明:本页面信息可能来自第三方,仅供参考,不代表 Gate 的观点或意见,亦不构成任何财务、投资或法律建议。数字资产交易风险较高,请勿仅依赖本页面信息作出决策。具体内容详见声明
评论
0/400
暂无评论