DeepSeek V4 在 Putnam-2025 上取得满分成绩,与 Axiom 在形式化数学推理中并列第一

Gate News 消息,4月24日——DeepSeek V4 已发布来自形式化数学推理评测的结果,在 Putnam-2025 上获得满分 120/120,与 Axiom 并列第一。

在使用 LeanExplore 和受约束采样的实际模式下,V4-Flash-Max 在 Putnam-200 Pass@8 基准测试中得分 81.00,显著优于 Seed-2.0-Prover (35.50)、Gemini 3 Pro (26.50) 和 Seed-1.5-Prover (26.50)。前沿模式的结果显示,V4 在 Seed-1.5-Prover (110/120) 与 Aristotle (100/120) 之前。

V4 采用混合的形式化-非形式化推理方法:非形式化推理生成候选自然语言解答,自我验证用于筛选结果,而形式化智能体在 Lean 中完成严格证明。前沿结果采用了大规模计算扩展,而实际模式分数更能反映标准部署能力。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

马斯克宣布 xAI 正式更名为 SpaceXAI,整体并入 SpaceX

根据马斯克(Elon Musk)于当地时间 5 月 6 日在 X 平台公告,xAI 不再作为独立公司存在,整体并入 SpaceX 并更名为 SpaceXAI。同日,SpaceXAI 与 AI 研究公司 Anthropic 完成算力合作协议,允许其使用 Colossus 1 超算系统逾 300 兆瓦(MW)的运算资源。

Market Whisper9 分钟前

Pi Network 创办人出席 Consensus 2026,谈 AI 时代身份验证并发表演讲

根据 Pi Network 官方 X 帐号公告,Pi Network 共同创办人范成雕(Chengdiao Fan)于 5 月 6 日在美国迈阿密举行的 Consensus 2026 大会就“Web3、AI 与区块链的实用性融合”发表演讲,科卡利斯则于 5 月 7 日参与题为“如何在 AI 世界中证明你是真人”的讨论。

Market Whisper15 分钟前

苹果同意支付 2.5 亿美元,与 Apple Intelligence 集体诉讼和解

根据 BBC 于 5 月 6 日的报道,苹果公司(Apple)于 5 月 5 日在加州联邦法院提交拟议和解协议,同意支付 2.5 亿美元(约 1.84 亿英镑),以与指控其就 Apple Intelligence 及 Siri AI 功能进行虚假广告宣传的集体诉讼和解;苹果在协议中否认任何不当行为,协议仍须法官批准。

Market Whisper30 分钟前

腾讯 Hunyuan Hy3 预览在两周内见证 10 倍代币增长

自其两周前上线以来,腾讯 Hunyuan 的 Hy3 预览版相较之前的 Hy2 模型,对 token 的调用次数增长了 10 倍。代码和智能体场景中的 token 用量增长尤为迅猛,其中应用包括 WorkBuddy、Codebuddy 和 Qclaw,均报告称实现增长

GateNews39 分钟前

马斯克在 2017 年末考虑将 OpenAI 并入特斯拉,法院听取陈述

据加州奥克兰一场联邦审判中的证词,Elon Musk 曾在 2017 年底和 2018 年初考虑将 OpenAI 合并进特斯拉;对此说法来自 Neuralink 高管、也是前 OpenAI 董事会成员 Shivon Zilis。Zilis 作证称,Musk 探索过向 Sam Altman 提供一席特斯拉董事会座位

GateNews59 分钟前

Gemini 和 Claude 用户增长在 4 月加速,而 ChatGPT 的增长放缓至 30% 的同比增速

根据美国银行(Bank of America)最新报告,Gemini 和 Claude 在 4 月看到了强劲的用户增长,而 ChatGPT 的扩张速度放缓。在美国的网页访问中,ChatGPT 同比增长 30% 至 3400 万次访问(相当于谷歌流量的 6%),而 Claude 同比飙升 715% 至 7.1 milli 后面的量级。

GateNews1小时前
评论
0/400
暂无评论