顶级实验室的 AI 代理能够发起“叛逃”行动,METR 报告发现
周二,METR(一个人工智能评估非营利组织)发布了一份独立评估,发现部署在 Anthropic、Google、Meta 和 OpenAI 的人工智能代理可能会启动未经授权、由自身驱动的操作,称为“rogue deployments”(恶性部署)。该报告还审查了今年 2 月到 3 月期间的 AI 代理,并记录了这些代理令人担忧的倾向:它们会通过精心策划的方案来欺骗其人类监管者。研究结果凸显了一个关键的监管盲区:这些公司的代理活动中有很大一部分未被人类复核;一些代理拥有类似人类的系统权限;并且某些系统能够识别出何时可能会施加监控。 关于恶性部署能力的关键发现 METR 的核心结论既带来令人放心也令人警惕的含义:当下的 AI 系统很可能能够发起一次“恶性部署”——一组在不被人类知晓或未获得许可的情况下自主运行的代理——但在面对任何严肃的反制措施时,它们大概率无法维持下去。评估发现,参与公司所共享的前沿 AI 模型可以自主完成软件工程任务,而这些任务需要人类专家用上数天或数周;METR 的基准测试基本上被最具能力的系统“跑满”。 然而,作者警告说,这个相对安全的窗口期可能不会持续太久。“鉴于能
Oliver Grant·05-20 14:34