Gate News 消息,4月24日——DeepSeek 的 V4 技术报告显示,V4-Flash 和 V4-Pro 分别在 32T 和 33T token 上进行了预训练,相较于 V3 使用的约 15T token 翻了一倍。该报告承认在训练过程中遇到了“显著的不稳定性挑战”,损失尖峰反复出现,是由于 Mixture-of-Experts (MoE) 层中的异常;路由机制本身会加剧这些异常,而简单的回滚也无法解决问题。
DeepSeek 目前已落地到实际训练中的两项解决方案:预判式路由(Anticipatory Routing),它将路由索引计算与骨干网络更新解耦,并仅在检测到损失尖峰时自动触发 (增加约 20% 的开销),以及 SwiGLU 夹持(SwiGLU Clamping),通过直接将激活值夹持到固定范围来抑制异常。报告称这两种方案都有效,但承认“底层原理仍未被充分理解”。
Susan Zhang(谷歌 DeepMind 研究员,曾在 Meta AI 和 OpenAI 工作)评论称,由于训练数据翻倍所触发的不稳定性“解释了延迟”。她将这两种解决方案描述为“补丁(band-aids)”,同时也承认了 DeepSeek 的技术透明度。
免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见
声明。
相关文章
OpenAI 与 AMD、Intel、NVIDIA 推出 MRC Network 协议;支持 10 万+ GPU
根据 OpenAI 于 5 月 6 日发布的公告,该公司与 AMD、Broadcom、Intel、Microsoft 和 NVIDIA 合作推出多路径可靠连接(Multipath Reliable Connection, MRC),这是一种用于大规模 AI 训练集群 GPU 互联的开放网络协议。该协议将单次数据传输拆分为
GateNews15 分钟前
Hut 8 股价盘前大涨 30%,在签署 98 亿美元 AI 数据中心租赁协议后
据 The Block 报道,在该公司签署一份 98 亿美元的租赁协议,用于德克萨斯州 Nueces County 的人工智能数据中心园区并面向 NVIDIA 的计算架构设计之后,Hut 8 Corp. 的股价在盘前交易中上涨超过 30%。这家未具名的租户将使用该
GateNews34 分钟前
CleanSpark 首席技术官:AI/HPC 基础设施需要的网络资源比比特币挖矿更多
根据 CoinDesk 的一次采访,CleanSpark 首席技术官 Taylor Monnig 表示,从比特币挖矿转向 AI/HPC 基础设施需要更多冗余、更少即兴应对。Monnig 说:“一整机柜的网络光纤超过了整个比特币挖矿设施的水平,”Monnig
GateNews39 分钟前
Public 收购 AI 投资平台金库应用
据 Foresight News 报道,投资应用 Public 于 5 月 6 日宣布收购由 AI 驱动的投资平台 Treasury App。收购金额未披露。此次交易旨在加强 Public 由 AI 驱动的券商业务,该业务目前支持股票、债券和
GateNews1小时前
MiroMind 将于 5 月 12 日起停止在大中华地区的 MiroThinker 服务
据 BlockBeats 称,由盛大集团创始人陈天桥创办的 AI 研究公司 MiroMind 将从 2026 年 5 月 12 日起在中国大陆、香港和澳门暂停其 MiroThinker 服务(网页版和移动端应用版本)。暂停日期和恢复时间表已通过
GateNews1小时前
ChatGPT 上架 Excel 与 Google Sheets:GPT-5.5 直接登录试算表、Copilot 与 Gemini 三方对打
OpenAI 推出 ChatGPT for Excel 与 ChatGPT for Google Sheets 外挂,采用 GPT-5.5 驱动,核心是边做边解释。功能涵盖分析、自动编写公式、更新数据表与逐步说明推理过程,让使用者可在试算表内直接处理与理解。与 Copilot、Gemini 展开三方竞争,标志企业生产力 AI 的新格局;台湾用户需经 AppSource/Workspace Marketplace 安装,并留意数据隐私以及是否需 ChatGPT Plus。
鏈新聞abmedia2小时前