OpenAI 宣布推出全新 AI 超級电腦網路協议 MRC(Multipath Reliable Connection),並已透过 Open Compute Project(OCP)开源釋出。这項技術由 OpenAI 与 AMD、Microsoft、NVIDIA、Intel、Broadcom 等业者共同开发,目標是解決超大型 AI 訓練叢集在 GPU 之间的资料傳输瓶頸。
AI 訓練真正瓶頸是 GPU 之间如何溝通
OpenAI 表示,随著 ChatGPT 每週使用人數已超过 9 亿,AI 系统正逐漸成为基礎设施等級的服務。为了支撐下一代模型訓練与推論需求,OpenAI 认为不只模型本身需要进化,连網路架構都必須重新设计。
OpenAI 在技術文章中指出,大型 AI 模型訓練时,一次訓練步骤可能涉及數百万次 GPU 间资料交換。只要其中一个傳输延遲,就可能让整个訓練同步停滯,導致大量 GPU 閒置。
而当 AI 超級电腦規模越来越大,網路壅塞、交換器故障、延遲抖动(jitter)等问題会急遽放大。OpenAI 认为,这也是 Stargate 超級电腦计畫中最核心的技術挑戰之一。
过去资料中心的網路架構,多數採用單一路徑傳输(single-path)。但 MRC 最大的改變,是让同一份资料能同时分散到數百條路徑傳输。
MRC 是什麼?OpenAI:让 AI 網路變自动闪避障礙物
根據 OpenAI 与 AMD 的说法,MRC 的核心概念是:
將资料拆散,同时走多條路徑
在微秒級別自动繞过故障
減少網路壅塞造成的延遲
让 GPU 保持同步运作
AMD 形容,傳统 AI 網路像是高速公路只走單一路線,一旦塞车或事故就会影響整體进度;MRC 則像是具備即时改道能力的智慧交通系统。AMD 甚至直言:「AI 規模化真正的瓶頸已经不是 GPU 与 CPU,而是網路。」
为什麼 OpenAI 要自己设计網路協议?
这次 OpenAI 釋出的訊號非常明確:AI 競爭已经不只是模型競爭,而是整套「超級电腦基礎设施」競爭。OpenAI 在文章中提到,在 Stargate 出现之前,他們与合作夥伴已共同維護三代 AI 超級电腦。这些经验让 OpenAI 得出一个結論:若想在 Stargate 規模下有效使用算力,整个 stack 都必須大幅降低複雜度。其中就包含網路層。
也就是说,未来 Frontier Model 的競爭,不再只是誰有更強模型,而是誰能更有效率地让數十万、甚至數百万 GPU 同步运作。
MRC 背后是 Stargate:OpenAI 的曼哈頓计畫
MRC 的背景,其实是 Stargate LLC。Stargate 是 OpenAI、SoftBank Group、Oracle Corporation 与 MGX 推动的大型 AI 基礎设施计畫,最初目標是在美国投资高达 5,000 亿美元 AI 基礎设施。OpenAI 表示,目前已超过原本 10GW 的階段性目標,且最近 90 天新增超过 3GW AI 基礎设施容量。
其中位於德州 Abilene 的 Stargate 超級电腦,正是 MRC 主要部署场域之一。OpenAI 指出,MRC 已整合进最新 800Gb/s 網路介面,並在实际大型訓練叢集中运行。
这篇文章 OpenAI 公布 MRC 超級电腦網路協议!攜手輝达、AMD、微软打造 Stargate 基礎设施 最早出现於 链新聞 ABMedia。
免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见
声明。
相关文章
Anthropic 推出 Claude Dreams:Agent 在任务之间自动整理记忆,消除重复与矛盾
Anthropic 在 Code with Claude 大会公布 Dreams,让 Claude Managed Agents 在多场会話间自动整理記憶、消除重複与矛盾、更新陳舊條目,输出可審核的整理后記憶庫;输入上限为 100 个 session 与 4,096 字元,非同步執行,數分鐘至數十分鐘完成,支援串流觀察。研究预覽需申请,暫只支援 claude-opus-4-7 与 claude-sonnet-4-6,正式上市未定。
鏈新聞abmedia5 分钟前
Anthropic 接 SpaceX 算力:拿下 Colossus 1 整座 22 万 GPU、Claude 解除限额
Anthropic 宣布并与 SpaceX 就 Colossus 1 数据中心达成算力合作,将动用逾 22 万颗 Nvidia GPU、300MW 以上容量,预计一个月内全部部署供 Anthropic 使用,提升 Claude、Code 的运算与体验。同步放宽 Pro/Max/Team/Enterprise 的每 5 小时用量上限、取消尖峰限额,并提高 Opus API 速率;亚洲与欧洲基础设施同步扩张,未来另有「轨道 AI 计算」等意向,尚未成约。
鏈新聞abmedia16 分钟前
Coinbase 工程师:AI 代理可能会颠覆网络广告模式
Coinbase 工程师 Erik Reppel 表示,人工智能代理可能从根本上动摇依赖互联网广告的商业模式。根据 Reppel 的说法,网络经济在很大程度上依赖于来自人类用户的广告收入,但 AI 代理会绕过该系统。
Crypto Frontier50 分钟前
Anthropic 在与 SpaceX 达成协议并获得 300MW 产能后,将 Claude 代码速率限制翻倍
据 Odaily 报道,Anthropic 已与 SpaceX 签署协议,以访问 Colossus 1 数据中心的全部计算能力,确保在本月内新增超过 300 兆瓦的产能以及超过 220,000 台 NVIDIA GPU。自即日起,Claude Code 针对 Pro 的五小时限流,
GateNews1小时前
AI 招聘平台 Ethos 完成 2200 万美元 A 轮融资,由 a16z 于 5 月 6 日领投
据 BlockBeats 称,总部位于伦敦的 AI 招聘平台 Ethos 于 5 月 6 日完成了 2275 万美元的 A 轮融资,Andreessen Horowitz(a16z)领投,General Catalyst 参与。该平台使用 AI 面试候选人并分析
GateNews2小时前
OpenAI 与 AMD、Intel、NVIDIA 推出 MRC Network 协议;支持 10 万+ GPU
根据 OpenAI 于 5 月 6 日发布的公告,该公司与 AMD、Broadcom、Intel、Microsoft 和 NVIDIA 合作推出多路径可靠连接(Multipath Reliable Connection, MRC),这是一种用于大规模 AI 训练集群 GPU 互联的开放网络协议。该协议将单次数据传输拆分为
GateNews3小时前