微软周二在其年度 Build 活动中发布了七款新的 AI 模型,宣称它们在盲测以及图像编辑基准测试中优于 Anthropic 的 Claude Sonnet 4.6 和谷歌的 Nano Banana 2。该发布体现了微软试图在前沿 AI 开发者领域确立自身地位,而不仅仅是 OpenAI 最大的支持者和基础设施提供商。此消息发布之际,领先 AI 开发者之间的竞争持续加剧,Anthropic 和谷歌近期也分别发布了自家的旗舰模型。 MAI-Thinking-1 在盲测中优于 Claude Sonnet 4.6 根据微软 AI 首席执行官 Mustafa Suleyman 的说法,微软的旗舰文本基础模型 MAI-Thinking-1 在由独立评估者进行的盲测中,相比 Anthropic 的 Claude Sonnet 4.6 更受青睐。该模型在 AIME 2025 上的得分为 97%,该基准用于衡量高级问题解决与推理能力。Suleyman 表示,该模型在 SWE Bench Pro 上的结果让它“在最艰难的编码基准之一上,与 Opus 4.6 并驾齐驱”。微软也宣称,MAI“取得了最高胜率,