Sakana AI 的 Fugu Ultra 与 Fable 5:因测试脚手架差异而受到质疑的基准比较

据Beating监测,Sakana AI的多智能体系统Fugu Ultra声称在科学推理和编程基准测试中战胜Anthropic的Fable 5,但这一说法遭到AI社区的广泛质疑。

批评者认为,基准测试分数高度依赖于评估过程中使用的测试框架。不同的框架实现可能导致10到20分的差异,这意味着报告的性能差异可能反映的是系统工程优化,而非模型能力的根本性进步。Sakana AI和Anthropic都基于专有的、供应商特定的框架发布了结果,缺乏统一的第三方测试环境,限制了直接比较的可靠性。

免责声明:本页面信息可能来自第三方,仅供参考,不代表 Gate 的观点或意见,亦不构成任何财务、投资或法律建议。数字资产交易风险较高,请勿仅依赖本页面信息作出决策。具体内容详见声明
评论
0/400
暂无评论