Gate News 消息,4月22日——普林斯顿大学 PhD 学生 Yifan Zhang 在 X 上披露了 DeepSeek V4 的完整技术规格,此前于 4月19日进行了预览。V4 拥有 1.6 万亿(1.6 trillion)总参数,并提供轻量化变体 V4-Lite,参数规模为 2850 亿(285 billion)。
该模型采用 DSA2 注意力机制,该机制结合了 DeepSeek 先前在 V3.2 中的 DSA (DeepSeek Sparse Attention) 以及 NSA (Native Sparse Attention)(并配备 512 维的头部嵌入),再配套使用稀疏多查询注意力 (MQA) 与滑动窗口注意力 (SWA)。MoE (Mixture of Experts) 层包含 384 位专家,每次前向传递激活 6 位,使用 Fused MoE Mega-Kernel。残差连接采用 Hyper-Connections 架构。
首次披露的训练细节包括:使用 Muon 优化器 (applying Newton-Schulz orthogonalization to momentum updates),32K token 的预训练上下文窗口,以及在强化学习期间使用 GRPO (Group Relative Policy Optimization) 并进行 KL 散度修正。最终上下文窗口扩展至 100 万(1 million)tokens。该模型为仅文本模型。
Zhang 并未受雇于 DeepSeek,公司也尚未对所披露信息作出官方评论。
免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见
声明。
相关文章
IREN 通过全股票交易以 $625M 收购 Mirantis,以扩展 AI 云平台
根据 BlockBeats,IREN Limited 同意在 5 月 5 日以全股票交易方式,斥资约 6.25 亿美元收购云基础设施软件公司 Mirantis。此次收购旨在通过引入软件和编排能力来增强 IREN 的 AI 云能力,从而
GateNews4小时前
Anthropic 首席执行官:美国拟考虑简化 AI 模型发布流程,竞争对手落后 1-3 个月
据金十报道,Anthropic 的首席执行官在 5 月 5 日透露,美国政府似乎正在考虑简化发布人工智能模型的流程。该 CEO 指出,其他主要 AI 实验室的能力可能会落后于 Anthropic 1 到 3
GateNews5小时前
SGLang 团队在 $100M 估值完成 $400M 种子轮融资,Accel 领投
据 Beating 称,开源推理引擎 SGLang 的团队已正式成立 RadixArk,并在 4 亿美元的投后估值下完成了一轮 1 亿美元的种子轮融资。Accel 领投该轮,Spark Capital 作为联合领投方参与投资。半导体领域的竞争对手 Nvidia(通过
GateNews5小时前
OpenAI 向 8,000 名开发者提供在 6 月 5 日之前将 Codex 速率限制提高 10 倍
据 Beating 称,OpenAI 向在旧金山报名参加 GPT-5.5 线下活动的 8,000 多名开发者发送了邮件,为他们提供 Codex 速率限制提升 10 倍的奖励,自即日起至 6 月 5 日生效。所有申请者都会获得该奖励,无论他们是否收到了活动邀请。
GateNews5小时前
OpenAI 与 Anthropic 的合资/联合安排正洽谈收购三家 AI 服务公司,时间为 5 月 5 日
据 Jin 10 称,OpenAI 与 Anthropic 的合资公司正在与 5 月 5 日收购三家 AI 服务公司洽谈。据悉,这些目标公司包括专注工程的 AI 服务公司
GateNews5小时前
Anthropic 周二推出 10 个面向金融服务的 AI 代理
Anthropic 周二推出了 10 个新的 AI 代理软件,旨在处理金融服务任务,包括起草客户会议演示文稿、审阅财务报表,并将案件升级以供合规审查。该软件面向银行、保险、资产管理和 fintech 领域的专业人士。
GateNews5小时前