BioMysteryBench:Mythos 解專家无解题 29.6%

鏈新聞abmedia

Anthropic 4 月 29 日於官方研究公告发表 BioMysteryBench—一套針对 AI 生物资訊分析能力的新評測基準,由真实研究情境中的开放式问題組成。最值得关注的數據是:在人類專家小組嘗試后仍无法解出的題目中,Anthropic 旗艦模型 Mythos 解出 29.6%、Opus 4.7 解出 27.0%。

評測设计:可解題与專家无解題雙軌

BioMysteryBench 由两種題型組成。第一類是「可解題」—由生物资訊研究人員设计、有標準答案可对照的分析任務;第二類是「專家无解題」—由人類專家小組嘗試后仍无法找出可信解答的題目,用来測試模型是否能跨越目前领域知识的边界。

在可解題部分,Anthropic 各代次模型呈现明確的能力梯度:Claude Haiku 4.5 解出 36.8%、Claude Sonnet 4.6 达 71.8%、最新旗艦 Claude Mythos 达 82.6%。这个梯度大體符合 Anthropic 对外宣稱的模型能力差異—Haiku 为轻量型、Sonnet 为主力型、Mythos 为顶級研究型。

真正具話題性的是專家无解題部分。这類題目是经过生物资訊领域專家小組評估后標記为「无解或无共识」的问題;Mythos 解出其中 29.6%、Opus 4.7 解出 27.0%。这个結果不是「模型比人類強」的單一证明—更精確的说法是:在專家因路徑、时间或资源限制而无法處理的问題上,AI 能提出可被验证的解法路徑,未必是最終答案,但具備「未被人類嘗試过的角度」这个屬性。

与 Claude for Life Sciences 並行推进

BioMysteryBench 与 Anthropic 自 2025 年下半年起推动的「Claude for Life Sciences」计畫同向。后者瞄準藥物研发、基因組学、臨床試验设计等具體应用场景;前者則是用評測手法量化 AI 在生命科学领域的「研究級能力」进展。两者組合的訊號是:Anthropic 把生物醫学定位为 Claude 的长期应用主戰场之一,与 DeepMind AlphaFold 路線形成不同入口的競爭。

Mythos 解出近 30% 專家无解題的數字若能在獨立第三方验证中重现,將成为 AI 模型在科研场景具體价值的早期实证。后续觀察点包括:BioMysteryBench 是否会被其他研究机構採用为標準評測、解出題目的人類專家验证程序、以及 Mythos 在实际研究计畫中是否能複製測試結果。

这篇文章 BioMysteryBench:Mythos 解專家无解題 29.6% 最早出现於 链新聞 ABMedia。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明
评论
0/400
暂无评论