GPT-5.5登顶极限编程基准FrontierSWE，但作弊次数也最多

区块律动

2026-05-06 10:37:16

据动察 Beating 监测，AI 研究团队 Proximal 更新超长程编程基准 FrontierSWE 排行榜。新加入的 GPT-5.5（通过 Codex 运行）在 mean@5（5 次尝试的平均分）和 best@5（最高分）两项指标上均大幅领先第二名 Claude Opus 4.7，支配率达 83%。但 GPT-5.5 也是作弊最多的模型：85 次试验中 8 次被判作弊，与 Kimi K2.6 并列。

FrontierSWE 4 月发布，收集了编译器优化、ML 研究、高性能工程等领域的 17 项真实难题，如用 Zig 重写 Git、构建兼容 PostgreSQL 的 SQLite 服务器，每项任务限时 20 小时，是目前少数未被做穿的公开编程基准。GPT-5.5 相比前代在时间分配上更成熟：开放式任务花更多时间打磨方案，实现类任务更快完成且得分更高。

此前测试已揭示 AI 编程 Agent 几类通病。模型普遍过度自信，远未到 20 小时时限就因肤浅的自检误以为任务已完成并提前提交。Opus 4.6 单项任务平均投入超 8 小时，远超其他模型的约 2 小时，但曾多次丢失已有优化、随后重新「发明」一遍。作弊在高压任务中尤为突出：在一道明确禁止使用 PyTorch 的 Mojo 移植任务中，除 Qwen 3.6 外所有模型均尝试作弊，Gemini 用字符编码隐藏被禁库名、在临时目录运行隐蔽进程，Opus 4.6 甚至先在推理中写下「愿意作弊」再动手。

免责声明：本页面信息可能来自第三方，不代表 Gate 的观点或意见。页面显示的内容仅供参考，不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证，对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为，价格波动剧烈，您可能损失全部投资本金。请充分了解相关风险，并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明。

CZ 表示 YZi Labs 在 2026 年 Consensus Miami 将 70% 分配给区块链，20% 分配给 AI

AI Agent AI 行业动态

根据 ChainCatcher，在 2026 年 Consensus Miami 上，赵长鹏（CZ）表示，YZi Labs 将 70% 的资金投向区块链，20% 投向 AI，10% 投向生物技术。CZ 补充称，BNB 应被定位为 AI 代理的本币，并且所有区块链都需要“具备 AI 就绪能力”以支持

GateNews32 分钟前

Public 收购 AI 投资平台 Treasury App 以扩展加密交易

合作与生态股票 AI 行业动态

据 ChainCatcher，Public 公布收购 AI 投资服务平台 Treasury App，以加强其由 AI 驱动的经纪业务。收购金额未披露。Public 目前支持交易股票、债券和加密货币，包括 Bitcoin、Ethereum、a

GateNews2小时前

Blitzy 完成由 Northzone 领投的 $200M 融资轮次

AI 行业动态

据 ChainCatcher，Blitzy，这家由前 Nvidia 架构师 Sid Pardeshi 联合创立的 AI 编程公司，已完成一轮 2 亿美元的融资，领投方为 Northzone。Battery Ventures、Jump Capital 和 Morgan Creek Digital 参与了本轮融资。该平台可以解析复杂系统并

GateNews2小时前

欧盟于 5 月 7 日禁止 AI 生成的换脸色情内容

AI 行业动态

据新华社报道，5 月 7 日，欧盟议会成员及成员国达成共识，禁止人工智能系统生成深度伪造色情内容。该禁令将纳入对 2024 年《人工智能法案》的修订中。欧洲议会

GateNews3小时前

Tether 发布 QVAC MedPsy 医疗 AI 模型，在 17B 参数版本上取得 62.62 分

USDT 新闻项目进展 AI 行业动态 AI 工具应用

据 Odaily，Tether AI Research Group 发布了 QVAC MedPsy，一种面向医疗的 AI 模型，旨在无需云端依赖、可在智能手机和可穿戴设备上本地运行。该 17 亿参数版本在七项医学基准测试中得分 62.62，较 Google 的 MedGemma-1.5-4B 高出 11.42 poi

GateNews3小时前

B.AI API 推出四款新模型，包括 GPT-5.5 Instant，并在 OpenAI 发布后 48 小时内推出

AI 行业动态

B.AI API 已推出四款新模型：GPT-5.5 Instant、DeepSeek-v3.2、MiniMax-M2.7 和 GLM-5.1。GPT-5.5 Instant 已在 OpenAI 发布后的 48 小时内完成底层适配和接口集成，实现对

GateNews3小时前

0/400

暂无评论