Claude Fable 5 在 7 月 1 日恢复后显示出矛盾的基准测试结果

Claude Fable 5 于 7 月 1 日恢复服务,引发两个 AI 基准测试平台对其性能截然相反的评估。BridgeBench 报告调试评分从 86.2 骤降至 25.9,而 Arena.AI 通过数千次盲选人类偏好投票发现性能基本不变。根据 7 月 2 日发布的分析,这种分歧源于 Anthropic 新的安全分类器将大多数编码任务路由到 Claude Opus 4.8,而非模型实际能力下降。该分类器是在亚马逊研究人员于 6 月展示一种越狱技术后,作为恢复条件部署的,并促使美国政府以国家安全为由进行干预。

BridgeBench 显示编码类别评分大幅下降

BridgeMind 在 Fable 5 回归当天对其 7 月 1 日版本重新运行了全套编码测试。BridgeBench 测试跨类别的实际编码任务,包括调试、重构和幻觉抵抗,评分范围为 0–100,衡量模型在每个类别中的完成质量。调试从 86.2 降至 25.9,重构从 73.6 降至 38.4,幻觉抵抗从 75.9 降至 61.7。

在 12 项 TypeScript 调试任务中,只有三项实际到达 Fable 5。其余九项被 Anthropic 的新安全分类器拦截并重新路由至 Claude Opus 4.8。BridgeBench 将每次回退评分为零,因为回答的模型并非被评估的模型。该分类器经过训练以阻止亚马逊报告的越狱技术——该技术曾让 Fable 5 识别并演示软件漏洞。对分类器而言,调试 TypeScript 看起来足够像安全相关工作,导致回退频繁触发。

Arena.AI 人类投票显示大多数类别性能稳定

Arena.AI 通过不同视角运行了相同问题。该平台收集数千次跨多个类别(文本、视觉、文档、代码和代理)的盲选人类偏好投票,并使用 Elo 评分对模型进行排名。当两个模型匿名对决且人类选出胜者时,评分反映的是实际感知质量,而非基础设施路由。

前后对比显示 Fable 5 基本保持稳定。前端代码从 1650 Elo 降至 1623 Elo——Arena 指出这一差异在置信区间内,数据仍在累积。文档性能提升 34 分。专家文本上升 25 分。创意写作小幅上升 9 分。下降的类别——编码下降 18 分,硬提示下降 3 分——正是分类器最可能在 Fable 回答前拦截提示的领域。

用户体验因任务类别而异

进行创意写作、文档分析、研究和专家级文本查询的普通用户可能几乎感觉不到差异。这些正是 Arena.AI 显示性能持平或提升的类别。作家、研究人员和分析师将得到他们预期的 Fable 5。

任何从事安全相关领域工作的人——比如编码内存管理、涉及 vulnerability、exploit、hook 甚至 fix 等词汇的任务——将频繁遇到回退。BridgeBench 的崩溃与 Arena 的稳定之间的差距归结于任务类型。BridgeBench 的测试套件恰好包含大量触发新分类器的代码修复和调试提示。而 Arena 的人类投票者提出的问题种类广泛得多,其中大多数在安全层看来并不像利用代码。

Anthropic 承认误报率过高,未给出改进时间表

Anthropic 表示分类器将随时间改进,同时承认目前筛选范围过宽。最初的禁令源于亚马逊研究人员找到一种方法让 Fable 识别和演示软件漏洞——美国政府将其视为国家安全威胁。解决方案是让分类器足够保守以捕捉该威胁及其周边内容,之后再逐步调低阈值。Anthropic 未给出实现这一目标的具体日期。

常见问题

为什么 Claude Fable 5 在 BridgeBench 上的调试评分从 86.2 降至 25.9?
安全分类器将 12 项 TypeScript 调试任务中的九项路由至 Claude Opus 4.8 而非 Fable 5。BridgeBench 将每次回退评分为零,因为被评估的模型未处理该任务,导致评分严重下降,尽管 Fable 5 的实际能力并未改变。

Arena.AI 对 Fable 5 在 7 月 1 日恢复后的性能有何发现?
Arena.AI 收集了数千次盲选人类偏好投票,发现 Fable 5 的性能与 6 月版本基本持平。文档性能提升 34 分,专家文本提升 25 分,而前端代码从 1650 Elo 降至 1623 Elo——这一差异在置信区间内。

免责声明:本页面信息可能来自第三方,仅供参考,不代表 Gate 的观点或意见,亦不构成任何财务、投资或法律建议。数字资产交易风险较高,请勿仅依赖本页面信息作出决策。具体内容详见声明
评论
0/400
暂无评论