英国一政府机构发现，OpenAI 最新的人工智能模型能够自主实施复杂的网络攻击——而且它在刚超过10分钟内破解了一个逆向工程挑战，这一任务通常需要人类安全专家花大约12小时完成。人工智能安全研究院（AISI）是英国科学、创新与技术部体系内的研究机构，其在周四发布的研究结果显示，GPT-5.5 是它评估过的、在进攻性网络能力方面实力最强的模型之一，整体表现大致与 Anthropic 那款备受推崇的 Claude Mythos 接近。报告指出，GPT-5.5 是第二个完成 AISI 最苛刻测试的模型：这项测试是一场名为“The Last Ones”（“最后的幸存者”）的32步模拟企业网络攻击。GPT-5.5 在10次尝试中有2次实现了自主完成。首个达成该里程碑的模型是 Anthropic 的 Claude Mythos Preview（Claude Mythos 预览版），它在10次尝试中有3次完成了该模拟。

这项企业网络模拟由网络安全公司 SpecterOps 构建。该模拟要求代理按顺序串联多项操作：侦察、窃取凭证、在多个 Active Directory 林之间进行横向移动、通过 CI/CD（持续集成/持续交付）流水线进行供应链“转向”，最终对受保护的内部数据库进行数据外传——AISI 估计，这些步骤若由人类专家完成，约需20小时。或许最引人注目的结果涉及一个极其棘手的逆向工程谜题。GPT-5.5 在10分22秒内解决了该挑战——该挑战要求重建定制虚拟机的指令集、从零开始编写反汇编器，并通过约束求解找回加密密码；其 API 使用成本为 1.73 美元。使用专业工具的人类专家则大约需要 12 小时。在 AISI 的一系列高阶网络安全任务中，GPT-5.5 在最困难的“Expert”（专家）级别任务上取得了平均 71.4% 的通过率，高于 Mythos Preview 的 68.6%，并显著超过 GPT-5.4 的 52.4%。

这些发现对更广泛的人工智能发展路径具有明确的指向意义。AISI 得出结论认为，GPT-5.5 的表现表明，网络能力的快速提升可能属于整体趋势的一部分，而非孤立的突破；并警告称，如果攻击型网络技能正在作为更广泛能力提升（包括推理、编程以及自主完成任务）的副产物出现，那么后续进展可能会在短时间内接连到来。报告同时指出，关于该模型安全防护护栏存在重大担忧。研究人员发现了一种通用的“越狱”方式：在所有被测试的恶意网络查询中，它都会诱发有害内容，且包括多轮的“代理式”交互场景。该攻击花了 6 小时的专家红队工作才得以开发。随后，OpenAI 更新了其防护措施堆栈，不过由于存在配置问题，AISI 无法验证最终版本是否有效。 AISI 提醒称，其能力评估是在受控的研究环境中进行的，未必反映普通用户所能访问的实际情况，并指出公开部署版本还包含额外的安全防护和访问控制。该报告发布之际，英国的网络安全形势背景令人担忧。英国政府当天同样发布的年度《网络安全漏洞与泄露调查》显示：过去 12 个月内，43% 的企业遭受了网络漏洞或网络攻击事件。为应对这一情况，政府宣布投入 9,000 万英镑的新资金以提升网络韧性，并表示将推进《网络安全与韧性法案》，以保护关键服务。官员们还发布了指导意见，敦促组织为可能出现的、因 AI 加速而更快发现并被武器化的软件漏洞激增做好准备。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

置顶

OpenAI的GPT-5.5在网络攻击能力方面与Claude Mythos相媲美：人工智能安全研究所

简要概述

热门话题

WCTC交易王PK

美国寻求战略比特币储备

比特币ETF期权持仓限额增4倍

美联储利率不变但内部分歧加剧

DeFi4月安全事件损失超6亿美元

置顶