DeepSeek发布V4开源模型系列,参数达1.6T并采用MIT许可证

Gate News消息,4月24日——DeepSeek已在MIT许可证下发布V4系列开源模型,权重现已在Hugging Face和ModelScope提供。该系列包含两个混合专家 (MoE) 模型:V4-Pro 总参数达1.6万亿,且每token激活49亿,以及V4-Flash 总参数达2840亿,且每token激活130亿。两者都支持100万token的上下文窗口。

该架构带来三项关键升级:一种混合注意力机制,将压缩稀疏注意力 (CSA) 与高度压缩注意力 (HCA) 结合,大幅降低长上下文开销——V4-Pro在1M上下文下的推理FLOPs仅为V3.2的27%,用于在推理过程中存储历史信息的KV缓存 (VRAM) 也仅为V3.2的10%;用流形约束的超连接 (mHC) 替代传统的残差连接,以增强跨层信号传播的稳定性;并采用Muon优化器以实现更快的训练收敛。预训练使用了超过32万亿tokens的数据。

后训练采用两阶段方案:首先通过监督微调 (SFT) 和GRPO强化学习训练领域特定专家,然后通过在线蒸馏将它们合并为单一模型。V4-Pro-Max (最高推理模式) 宣称在顶级代码基准上拥有最强的开源模型实力,并且在推理和智能体任务上与闭源前沿模型之间的差距显著缩小。V4-Flash-Max在足够的计算预算下实现Pro级推理性能,但在纯知识和复杂智能体任务上受限于参数规模。权重以混合FP4+FP8精度存储。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

美国众议院外交事务委员会在《MATCH 法案》通过后 36-8 就 AI 出口管制与科技巨头会面

根据 Beating,美国众议院外交事务委员会成员下周将前往硅谷,向来自 Google、Anthropic、Meta、Tesla、Intel、Applied Materials 和 Nvidia 的代表进行会面,以讨论人工智能与出口管制。一个产业圆桌会议是

GateNews22 分钟前

OpenAI 推出 Codex Pets,具备定制生成的 AI 驱动虚拟伴侣

据 Beating 称,OpenAI 已为 Codex 桌面应用添加了一项名为“Codex Pets”的新功能,允许用户生成并与一只动画虚拟伴侣互动。用户可以在编辑器中输入 /pet 来激活宠物。该功能作为代理状态指示器运行,用于显示一项

GateNews26 分钟前

AISI 评估:GPT-5.5 的网络攻击能力与 Anthropic Mythos 持平

AISI 于 5 月公布 GPT-5.5 網路攻擊能力評估:Expert 难度 71.4%、Mythos Preview 68.6%,差距在误差内,持平。GPT-5.5 成为继 Mythos 之后第二个可自动完成「The Last Ones」32 步骤企业入侵的系统。另发现 universal jailbreak,约 6 小时即可开发,能绕过恶意查询过滤。未来将观察下一轮评估时程与 OpenAI 对此更新。

鏈新聞abmedia2小时前

五角大楼与 7 家 AI 大厂签署机密军网部署合同:Anthropic 仍被排除

美国国防部于5月宣布与SpaceX、OpenAI、Google、NVIDIA、Reflection、Microsoft、Amazon Web Services等7家签署机密军用网络部署合约,另加入Oracle成为第8家。合约允许在Impact Level 6/7最高机密层级运行模型,重点三大应用为数据整合、作战决策与战场态势感知,强调分散风险与避免供应商绑定。Anthropic因拒绝军方安全护栏而被列入黑名单,未获签。AMD未直接列入,GPU由NVIDIA等提供。后续观察Anthropic是否让步,以及Reflection等新入选者的角色。

鏈新聞abmedia2小时前

Cerebras 瞄准 $4B IPO,估值约 400 亿美元

总部位于加利福尼亚州桑尼维尔的 AI 芯片制造商 Cerebras Systems 正寻求最高 40 亿美元的 IPO,可能使公司估值约 400 亿美元,据彭博报道。正式路演最早可于 5 月 4 日启动,银行将收到超过 100 亿美元的初步意向,这些意向反映了其中(indications of)需求,其中包括

Crypto Frontier2小时前

中国 AI 公司考虑在 Meta 的 Manus 收购叫停后拆解红筹结构

据 Beating 称,中国国家发展和改革委员会叫停了 Meta 对 AI 代理公司 Manus 的 20 亿美元收购,促使中国证券监督管理委员会加强对红筹公司(持有境内资产的中国公司)在香港 IPO 上市的批准要求

GateNews3小时前
评论
0/400
暂无评论