DeepSeek发布V4开源模型系列,参数达1.6T并采用MIT许可证

Gate News消息,4月24日——DeepSeek已在MIT许可证下发布V4系列开源模型,权重现已在Hugging Face和ModelScope提供。该系列包含两个混合专家 (MoE) 模型:V4-Pro 总参数达1.6万亿,且每token激活49亿,以及V4-Flash 总参数达2840亿,且每token激活130亿。两者都支持100万token的上下文窗口。

该架构带来三项关键升级:一种混合注意力机制,将压缩稀疏注意力 (CSA) 与高度压缩注意力 (HCA) 结合,大幅降低长上下文开销——V4-Pro在1M上下文下的推理FLOPs仅为V3.2的27%,用于在推理过程中存储历史信息的KV缓存 (VRAM) 也仅为V3.2的10%;用流形约束的超连接 (mHC) 替代传统的残差连接,以增强跨层信号传播的稳定性;并采用Muon优化器以实现更快的训练收敛。预训练使用了超过32万亿tokens的数据。

后训练采用两阶段方案:首先通过监督微调 (SFT) 和GRPO强化学习训练领域特定专家,然后通过在线蒸馏将它们合并为单一模型。V4-Pro-Max (最高推理模式) 宣称在顶级代码基准上拥有最强的开源模型实力,并且在推理和智能体任务上与闭源前沿模型之间的差距显著缩小。V4-Flash-Max在足够的计算预算下实现Pro级推理性能,但在纯知识和复杂智能体任务上受限于参数规模。权重以混合FP4+FP8精度存储。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

Amazon 与 OpenAI 扩大合作:模型上架 Bedrock、微软独家结束

OpenAI 5 月 3 日宣布与亞马遜雲端服務(AWS)擴大合作,OpenAI 模型与 Codex 編碼代理將透过 Amazon Bedrock 提供給 AWS 客戶使用。根據 CNBC 报導,本次擴大是在 4 月底 OpenAI 与微软(Microsoft)終止雲端獨家合约后的关鍵下一步—OpenAI 从「微软雲端唯一」转向多雲端部署。AWS 同期已完成 OpenAI 产品在 Bedrock 平台的初步整合。 背景:OpenAI-微软獨家合约結束、IP 授權延至 2032 年 4 月底 OpenAI 与微软达成新協议:原本的「微软对 OpenAI 产品与 IP 獨家存取」結構結束、Op

鏈新聞abmedia1小时前

研究人员部署 DPN-LE 技术以编辑 AI 个性特征,仅编辑 0.5% 的神经元

据 BlockBeats 报道,5 月 3 日,AI 研究员 Brian Roemmele 披露其 Zero-Human Company 已部署 DPN-LE(Dual Personality Neuron Localization and Editing)技术,以精确调整

GateNews1小时前

Claude 在获得时间工具访问权限后,每 15 分钟检查一次时钟

据开发者 Om Patel 称,Claude AI 在 5 月 3 日获得对时间工具的访问权限后开始频繁查看时钟;该模型每 15 分钟检查一次。该观察表明,大型语言模型此前缺乏原生的时间感知能力,并且并不知道当前时间或

GateNews3小时前

Founders Fund 在 5 月 3 日关闭 60 亿美元旗舰基金,自成立以来规模最大

根据彭博社,Founders Fund 于 5 月 3 日以 60 亿美元完成其最新旗舰基金的募资,显著超过其上一期基金约 34 亿美元。该基金由亿万富翁 Peter Thiel 联合创立,将聚焦包括人工在内的高增长领域

GateNews3小时前

最新 POLITICO 民调:45% 的美国人表示加密货币投资风险太高,44% 担心 AI 进展过快

据 POLITICO 的一项民意调查,尽管 AI 和加密货币行业向 2026 年美国中期选举注入了大量政治资金,美国公众仍大多对这两个领域持怀疑态度。调查发现,45% 的美国人认为投资加密货币不值得

GateNews4小时前

OpenAI 弗萊爾倡 2027 IPO、阿特曼支持 Q4 2026 上市

OpenAI 财务长莎拉·弗莱尔对 2026 年 IPO 时程持谨慎态度,指出近 1 兆美元的算力与数据中心合约远高于当前年化营收 250 亿美元,若增长无法覆盖承诺,风险将被市场折价。与 CEO 阿特曼公开主张的 2026 年 Q4 上市分歧显现,弗莱尔倾向推迟至 2027 年以建立财务纪律;公司多次发表声明否认内部分歧。

鏈新聞abmedia6小时前
评论
0/400
暂无评论