V4-Pro 在内部自用测试中实现 67% 编码通过率,逼近 Opus 4.5 性能

Gate News 消息,4月24日——V4 已公开披露其 V4-Pro 模型的内部自用(dogfooding)数据。该公司从 50 多名工程师处收集了约 200 项真实的工程任务,覆盖特性开发、错误修复、重构以及跨技术栈的诊断,包括 PyTorch、CUDA、Rust 和 C++。经过严格筛选后,保留了 30 项任务用于基准评估。

V4-Pro-Max 达到了 67% 的编码通过率,显著优于 Sonnet 4.5 的 47%,并接近 Opus 4.5 的 70%。不过,它仍落后于 Opus 4.5 Thinking (73%) 和 Opus 4.6 Thinking (80%),同时远超 Haiku 4.5 的 13%。

在一次内部调查中,共有 85 名受访者,所有参与者都表示在日常工作流程中使用 V4-Pro 进行具备行动性的(agentic)编码。52% 将 V4-Pro 作为默认的首选编码模型,39% 倾向于认可,而不到 9% 表达不赞同。报告的问题包括底层错误、对含糊提示的误读,以及偶尔出现的过度思考行为。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

Anthropic 将与黑石(BlackRock)和高盛(Goldman Sachs)成立 AI 咨询合资公司,并投入 15 亿美元

据《华尔街日报》报道,Anthropic 正在敲定一项协议,计划于周一与 BlackRock、Goldman Sachs 以及其他华尔街公司成立一家合资企业,旨在向由私募股权支持的公司销售人工智能工具。该合资企业预计将作为 Anthropic 的咨询部门,

GateNews14 分钟前

中国阻止 Meta 的 US$2B Manus AI 收购

中国宣布将阻止 Meta 价值 20 亿美元的收购 AI 代理公司 Manus,理由是担忧将中国的人工智能知识产权转移给美国公司。根据 Tech in Asia 的报道。 Manus 是一家由中国创立的公司,将其总部迁至

Crypto Frontier32 分钟前

腾讯在最新 Hy3 模型训练中使用了 Anthropic 的 Claude Code,《信息》报道称

据《The Information》援引内部腾讯备忘录和消息人士称,尽管 Anthropic 明确禁止向以国家为由的中国公司提供商业服务(相关内容未完句)且理由为国家…,腾讯员工在公司最新大型语言模型 Hy3 的后训练阶段使用了 Anthropic 的 Claude Code。

GateNews1小时前

三星电机因 AI 需求走强,KB Securities 于 5 月 4 日上调目标股价

据 KB Securities 于 5 月 4 日称,三星电机维持买入评级并上调目标价,理由是多层陶瓷电容器以及用于 AI 服务器的 FC-BGA 基板需求强劲。该公司公布第一季度营收为 3.2 万亿韩元(21.8 亿美元)并

GateNews1小时前

Meta AI 在 FY26 的 Q1 中提升了 Facebook、Instagram 的互动;Reels 的使用时长增加了 10%

据《经济时报》(The Economic Times)称,Meta 2026 财年第一季度业绩显示,AI 升级提升了 Facebook 和 Instagram 的视频参与度。Instagram Reels 的停留时间上升 10%,而 Facebook 的视频观看时长在全球范围内增长超过 8%。每条广告的平均价格同比上涨 12%,且超过 8

GateNews1小时前

哈佛医学院最新研究:AI 在急诊室诊断决策优于人类医生

哈佛医学院在《科学》发表的研究,通过双盲测试与临床推理评估,客观比较 AI 系统与人类医师在病历判读上的差异。结果显示,AI 在急诊早期决策点可与主治医师同等或更优,且仅凭当时可得的电子病历信息。研究同时强调 AI 尚无法自主行医,医师仍不可或缺;若广泛运用,AI 可降低诊断错误与就医成本。

鏈新聞abmedia1小时前
评论
0/400
暂无评论