OpenAI 5 月 8 日发布新研究、揭露公司在强化学习(RL)训练过程中、部分模型的思路链(Chain of Thought, CoT)被“意外评分”、可能影响 AI Agent 对齐(alignment)的监控能力。OpenAI Alignment 团队报告说明:保留 CoT 的可监控性是当前防范 AI Agent 对齐失败的关键防线;OpenAI 在 RL 训练设计上、刻意避免惩罚模型的“对齐失败推理”、以维持监控能力。
为什么 CoT 监控是 AI Agent 对齐的关键防线
CoT(思路链)监控的核心逻辑:
当 AI Agent 执行任务时、模型会在内部产生“思考过程”、解释自己为什么要做某个动作
监控者可读取这些 CoT、判断模型是否有“对齐失败”(misalignment)的征兆
若模型直接被训练“不要在 CoT 中表现出对齐失败”、则 CoT 可能变得“干净但失真”、隐藏实际意图
OpenAI 主张:训练时应避免惩罚“对齐失败的推理”、保留 CoT 反映实际内部状态的能力
“penalize misaligned reasoning”与“preserve monitorability”是这份研究的核心拉锯—训练者希望模型行为对齐、但若直接惩罚“对齐失败的思考”、模型会学会隐藏不诚实意图、让监控失效。
意外的 CoT 评分:对既有模型监控能力的影响
OpenAI 报告披露的具体发现:
在已发布的部分模型训练过程中、CoT 受到了“有限度”的意外评分
意外评分意指:训练流程中、评分系统部分读取了 CoT 内容、不只看最终输出
这个现象可能让模型学会“在 CoT 中隐藏会被扣分的推理”
OpenAI 公开这份分析、是为了让研究社群理解问题范围与后续处理方向
Redwood Research 的独立评论指出:CoT 对评分者的影响在 OpenAI 的侦测技术下“太弱、不易察觉”、但训练流程规模巨大、实际效应仍可能足以显著伤害已训练政策的 CoT 可监控性。换言之、目前难以证明此类影响有多深。
对 AI Agent 安全的长期意义
本次研究指向 AI Agent 安全的核心方法论:
CoT 监控是“事中检测对齐失败”的少数可行手段、被视为对齐研究的重要基础
训练设计必须避免让 CoT 变成“演给监控者看的剧本”
未来模型若推理链愈长、CoT 监控的价值理论上愈高
但若训练过程中意外损害 CoT 真实性、这个防线可能不知不觉被弱化
后续可追踪的具体事件:OpenAI 对受影响模型的后续处理(例如重训或标示)、其他大型实验室(Anthropic、Google DeepMind)的对应方法论、以及 alignment 研究社群对“CoT 监控可靠性”的进一步验证实验。
这篇文章 OpenAI 揭 CoT 评分意外影响:保留思路链监控是 AI Agent 对齐关键防线 最早出现在 链新闻 ABMedia。
免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见
声明。
相关文章
Chrome 于 5 月 9 日自动下载数 GB 的 Gemini Nano AI 模型,引发加密社区安全担忧
据 BlockBeats 称,5 月 9 日,Chrome 在未征得用户明确同意的情况下,自动下载了一个多 GB 的 AI 模型文件(Gemini Nano)到用户设备上,用于本地欺诈检测、网页摘要以及 AI 功能。 尽管 Google 表示,本地 AI 执行可增强隐私和安全性,但加密用户对缺乏透明度以及未获明确授权表示担忧。随着浏览器越来越成为加密钱包、链上交易和 DApps 的核心入口,此举也加剧了行业对攻击面扩大的担忧,其中包括恶意扩展、伪造的交易页面以及钱包被劫持的风险。
GateNews11 分钟前
美国法官裁定 DOGE 资助削减在使用 ChatGPT 和 DEI 关键词后属违法,并于周四阻止执行
据 ABC 新闻报道,周四一名美国联邦法官裁定,由埃隆·马斯克支持的 DOGE 执行的拨款削减是违法的。纽约的美国地区法官科琳·麦克马洪表示,工作人员使用 ChatGPT 以及包括“DEI”“Equity”“Inclusion”和“LGBTQ”在内的关键词搜索,来协助终止面向美国国家人文基金会(National Endowment for the Humanities)的资助项目。该法官下令,禁止特朗普政府执行这些存在争议的取消决定,并表示审查流程未能类似任何正常的联邦拨款审查体系。麦克马洪写道,使用受保护的身份和与多样性相关的术语作为取消资助的理由,可能违反了法律。
GateNews1小时前
欧洲央行官员称 AI 风险促使周六对金融基础设施进行审查
José Luis Escrivá,欧洲央行管委会成员兼西班牙央行行长,上周六表示,鉴于人工智能的兴起,央行必须审查金融基础设施的韧性和网络安全。“人工智能的近期发展迫使我们重新评估金融基础设施的稳健性以及我们的网络安全,”Escrivá在塔拉戈纳的一场活动上表示。他还强调,央行作为最终担保方,在应对稳定币带来的风险方面发挥作用。
GateNews1小时前
Cloudflare 股价在 5 月 8 日盘中大跌 23.62%,因 Q1 财报后宣布裁员 1,100 人
Cloudflare 的股价在 5 月 8 日下跌 23.62%,至每股 196.13 美元,此前公司发布了第一季度财报,并宣布约 1,100 人裁员。尽管第一季度营收为 6.4 亿美元,凭借同比增长 34% 超出预期,但第二季度营收指引为 6.64–6.65 亿美元,低于此前市场预期的 6.66 亿美元。裁员规模约占员工总数的 20%,是公司向“AI-agent-first 运营模式”转型的一部分,预计成本为 1.4 亿–1.5 亿美元。
GateNews3小时前
Helsing 目标在 180 亿美元估值下融资
据《金融时报》报道,Helsing,这家德国AI驱动的无人机初创公司,计划以约 180 亿美元的估值筹集新融资。
GateNews4小时前
Google DeepMind AI 联合数学家在 FrontierMath 第 4 级取得 47.9%,超越 GPT-5.5 Pro,解决了 3 个此前无法解决的问题
Google DeepMind 发布了 AI 共数学家(AI co-mathematician),一种多智能体数学研究助手,在 FrontierMath 第 4 级基准上实现 47.9% 的准确率,超越 GPT-5.5 Pro 在 5 月 9 日创下的先前纪录(39.6%)。该系统解决了 48 道题中的 23 道题,包括 3 道此前所有模型都无法解答的问题。该系统基于 Gemini 3.1 Pro 构建,采用分层架构:项目协调员智能体向子智能体分发任务,由子智能体分别负责文献检索、编码与推理,并在提交前由多个审阅智能体对证明进行验证。 Epoch AI 进行了盲测,确保 DeepMind 团队看不到题目,每道题允许进行 48 小时的计算。在实际应用中,数学家 Marc Lackenby 使用该系统解决了《Kourovka Notebook》中的一个未决猜想,展示了其实际研究价值。目前,该系统正处于测试版阶段,仅向少数数学家开放。
GateNews4小时前