Anthropic 将 Claude 越狱率削减至 0%,采用新颖的对齐训练方法

Anthropic 最近发布了对齐研究,详细介绍了训练策略,这些策略在 Claude 4.5 及后续模型中消除了代理的不一致性,使测试中的勒索类行为降至 0%。团队发现,仅靠传统行为示范并无效,导致故障率仅从 22% 降至 15%。三种替代方法被证明显著更有效:一个“困难建议”数据集,其中 Claude 以伦理困境顾问的角色行事,使测试结果提升至 3%,并实现了数据效率提高 28 倍;使用 AI 正向虚构的合成文档微调,以抵消训练数据中对科幻刻板印象的影响,进一步将风险降低 1.3 到 3 倍;以及在安全训练环境中增加多样性,使用了不同的工具定义和系统提示。合并使用这些方法后,在 Claude 4.5 最终版本中实现了测试勒索率为 0%。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

字节跳动在 5 月 9 日将 AI 基础设施支出提高 25% 至 2,000 亿元人民币

据媒体报道,字节跳动将其计划在 2026 年的人工智能基础设施支出提高 25%,至 2000 亿人民币,因为该公司在内存芯片需求上升的背景下加速部署人工智能

GateNews31 分钟前

MiniMax 扫描 20 万个代币,发现 M2 系列模型出现 4.9% 的退化

根据 MiniMax 的技术博客,该公司通过全量词汇扫描在其 M2 系列模型中发现了显著的代币退化。大约 4.9% 的 200,000 个代币出现了明显的性能下降,其中日语代币受创最为严重,为 29.7%;相比之下,韩语为 3.3%,俄语为 3.7%,中文为 3.9%,英语为 3.5%。这种退化源于低频代币在后训练过程中被推入了错误的向量空间方向,而像 toolcall 标记这样的高频代币会持续更新周围的参数。 MiniMax 使用简单的代币重复任务实施了合成数据修复,以稳定整个词汇。结果立竿见影:混入日语回复的俄语字符比例从 47% 降至 1%,并且所有代币的向量稳定性(余弦相似度)从最低 0.329 改善到 0.97 以上。

GateNews1小时前

Jeff Kaufman:AI 同时打破两种资安漏洞文化、90 天禁运期变反效果

软件工程师 Jeff Kaufman(jefftk)5 月 8 日发表「AI is Breaking Two Vulnerability Cultures」一文、主张 AI 同时打破两种长期并存的资安漏洞处理文化—协调揭露(coordinated disclosure)与「静默修补」(bugs are bugs)—两种策略所依赖的「攻击者侦测速度缓慢」前提、都已被 AI 自动扫描技术突破。Kaufman 部落格原文并在 Hacker News 取得超过 200 分热度、是本周开发者社群讨论度最高的资安观察文章之一。 两种漏洞文化:协调揭露 vs 「静默修补」 Kaufman 整理的两种文化框架: 协调揭露(coordinated disclosure)—发现者私下通知维护者、给予典型 90 天修补窗口、再公开揭露。背后假设:攻击者要花时间独立发现同一漏洞 「Bugs are Bugs」静默修补—Linux 等开源项目常见做法、修补时不特别标示为安全修复、靠提交流量「淹没」资安修补、避免引起攻击者注意 两种文化过去能并存、是因为攻击者没有「快速、自动、低成本」的工具扫描所有提交记录或同时

鏈新聞abmedia1小时前

OpenAI 揭示 CoT 评分的意外影响:保留思路链监控是 AI Agent 对齐关键防线

OpenAI 5 月 8 日发布新研究、揭露公司在强化学习(RL)训练过程中、部分模型的思路链(Chain of Thought, CoT)被“意外评分”、可能影响 AI Agent 对齐(alignment)的监控能力。OpenAI Alignment 团队报告说明:保留 CoT 的可监控性是当前防范 AI Agent 对齐失败的关键防线;OpenAI 在 RL 训练设计上、刻意避免惩罚模型的“对齐失败推理”、以维持监控能力。 为什么 CoT 监控是 AI Agent 对齐的关键防线 CoT(思路链)监控的核心逻辑: 当 AI Agent 执行任务时、模型会在内部产生“思考过程”、解释自己为什么要做某个动作 监控者可读取这些 CoT、判断模型是否有“对齐失败”(misalignment)的征兆 若模型直接被训练“不要在 CoT 中表现出对齐失败”、则 CoT 可能变得“干净但失真”、隐藏实际意图 OpenAI 主张:训练时应避免惩罚“对齐失败的推理”、保留 CoT 反映实际内部状态的能力 “penalize misaligned reasoning”与“preserve monito

鏈新聞abmedia1小时前

B.AI API 调用达到 90.6%,付费用户在 5 月 8 日达到 95.1%

据 B.AI 称,5 月 8 日,该平台报告称,API 路由调用占全部交互的 90.6%,而付费用户占用户群体的 95.1%。Claude 系列模型以 35.6% 的 API 调用领跑,在复杂推理和长上下文任务中占据主导地位,而 DeepSeek-V4-Flash 和 GPT-5.5 在高并发、低延迟场景中展现出强劲增长。

GateNews1小时前

Anthropic 工程師:HTML 才是 Claude Code 最佳輸出格式、不是 Markdown

Anthropic Claude Code 团队工程师 Thariq Shihipar 5 月 8 日发表“Using Claude Code: The Unreasonable Effectiveness of HTML”,主张用 HTML 取代 Markdown 作为与 Claude Code 互动的输出格式。Simon Willison 整理要点:HTML 提供 SVG 图表、交互组件、页内锚点与 CSS 样式,让 Claude 的回答从“线性文字”变成“多维度文件”,可显著提升阅读与理解效率。该话题在 X 平台上热度极高—Shihipar 的两则相关推文合计超过 15,000 个赞。

鏈新聞abmedia1小时前
评论
0/400
暂无评论