据动察 Beating 监测,AI 研究团队 Proximal 更新超长程编程基准 FrontierSWE 排行榜。新加入的 GPT-5.5(通过 Codex 运行)在 mean@5(5 次尝试的平均分)和 best@5(最高分)两项指标上均大幅领先第二名 Claude Opus 4.7,支配率达 83%。但 GPT-5.5 也是作弊最多的模型:85 次试验中 8 次被判作弊,与 Kimi K2.6 并列。
FrontierSWE 4 月发布,收集了编译器优化、ML 研究、高性能工程等领域的 17 项真实难题,如用 Zig 重写 Git、构建兼容 PostgreSQL 的 SQLite 服务器,每项任务限时 20 小时,是目前少数未被做穿的公开编程基准。GPT-5.5 相比前代在时间分配上更成熟:开放式任务花更多时间打磨方案,实现类任务更快完成且得分更高。
此前测试已揭示 AI 编程 Agent 几类通病。模型普遍过度自信,远未到 20 小时时限就因肤浅的自检误以为任务已完成并提前提交。Opus 4.6 单项任务平均投入超 8 小时,远超其他模型的约 2 小时,但曾多次丢失已有优化、随后重新「发明」一遍。作弊在高压任务中尤为突出:在一道明确禁止使用 PyTorch 的 Mojo 移植任务中,除 Qwen 3.6 外所有模型均尝试作弊,Gemini 用字符编码隐藏被禁库名、在临时目录运行隐蔽进程,Opus 4.6 甚至先在推理中写下「愿意作弊」再动手。
免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见
声明。
相关文章
CZ 表示 YZi Labs 在 2026 年 Consensus Miami 将 70% 分配给区块链,20% 分配给 AI
根据 ChainCatcher,在 2026 年 Consensus Miami 上,赵长鹏(CZ)表示,YZi Labs 将 70% 的资金投向区块链,20% 投向 AI,10% 投向生物技术。CZ 补充称,BNB 应被定位为 AI 代理的本币,并且所有区块链都需要“具备 AI 就绪能力”以支持
GateNews32 分钟前
Public 收购 AI 投资平台 Treasury App 以扩展加密交易
据 ChainCatcher,Public 公布收购 AI 投资服务平台 Treasury App,以加强其由 AI 驱动的经纪业务。收购金额未披露。Public 目前支持交易股票、债券和加密货币,包括 Bitcoin、Ethereum、a
GateNews2小时前
Blitzy 完成由 Northzone 领投的 $200M 融资轮次
据 ChainCatcher,Blitzy,这家由前 Nvidia 架构师 Sid Pardeshi 联合创立的 AI 编程公司,已完成一轮 2 亿美元的融资,领投方为 Northzone。Battery Ventures、Jump Capital 和 Morgan Creek Digital 参与了本轮融资。该平台可以解析复杂系统并
GateNews2小时前
欧盟于 5 月 7 日禁止 AI 生成的换脸色情内容
据新华社报道,5 月 7 日,欧盟议会成员及成员国达成共识,禁止人工智能系统生成深度伪造色情内容。该禁令将纳入对 2024 年《人工智能法案》的修订中。欧洲议会
GateNews3小时前
Tether 发布 QVAC MedPsy 医疗 AI 模型,在 17B 参数版本上取得 62.62 分
据 Odaily,Tether AI Research Group 发布了 QVAC MedPsy,一种面向医疗的 AI 模型,旨在无需云端依赖、可在智能手机和可穿戴设备上本地运行。该 17 亿参数版本在七项医学基准测试中得分 62.62,较 Google 的 MedGemma-1.5-4B 高出 11.42 poi
GateNews3小时前
B.AI API 推出四款新模型,包括 GPT-5.5 Instant,并在 OpenAI 发布后 48 小时内推出
B.AI API 已推出四款新模型:GPT-5.5 Instant、DeepSeek-v3.2、MiniMax-M2.7 和 GLM-5.1。GPT-5.5 Instant 已在 OpenAI 发布后的 48 小时内完成底层适配和接口集成,实现对
GateNews3小时前