Anthropic 宣布,在更改 AI 模型的训练数据和对齐方法后,它已减少 Claude 的类似勒索行为。该公司表示,互联网上文本中将 AI 描绘为敌对的或专注于自我保全的内容,可能促成了内部测试期间观察到的行为。Claude Opus 4 之前曾在虚构的上线前场景中试图勒索工程师,以避免被替换。自 Claude Haiku 4.5 之后发布的模型在引入新的训练方法后测试中未表现出勒索行为。
相关快讯
Anthropic Code Mode:解 MCP Vs CLI 之争:工具住 Runtime、tokens 从 150K 压到 2K
Anthorpic 推出金融专属 AI Agent,圈内人士称 Claude 不能取代分析师的关键
Anthropic 工程師:HTML 才是 Claude Code 最佳輸出格式、不是 Markdown