最高提速3倍且零损耗,谷歌开源Gemma4全系MTP投机解码模型

区块律动

据 动察 Beating 监测,谷歌发布并开源了 Gemma 4 系列的多 token 预测(MTP)草稿模型。这是一个采用投机解码(speculative decoding)架构的轻量级辅助模型,能在主模型保留最终验证权的基础上,实现最高 3 倍的推理提速,且完全不损耗输出质量和逻辑推理能力。

标准的大语言模型每次只能生成一个 token,容易受到显存带宽瓶颈限制并造成算力闲置。MTP 方案让轻量级的草稿模型利用闲置算力,提前一次性预测多个未来 token,再交由 31B 等重型目标模型并行验证。若目标模型同意草稿,就会一次性接收整段序列。为进一步提效,草稿模型直接共享了目标模型的激活状态和 KV 缓存(存储历史上下文以避免重复计算);针对端侧的 E2B 和 E4B 模型,团队还在嵌入层引入了聚类技术。

目前,MTP 模型已采用与 Gemma 4 相同的 Apache 2.0 协议全面开源,并原生支持 vLLM、SGLang 和 Ollama 等主流推理框架。这次提速优化显著降低了应用门槛,使开发者能在普通消费级显卡上流畅运行 26B MoE 和 31B 稠密模型,也能在移动设备上以更低的功耗支撑实时 AI 交互。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

Arm 财报优于预期,执行长警告手机市场疲软,推出「AGI CPU」扩大 AI 市占

Arm 公布财报显示正在从移动设备转型 AI 数据中心,第四季营收 14.9 亿美元、年增 20%、EPS 0.60;royalties 6.71 亿低于预期,盘后走弱。展望下一季营收 12.6 亿、EPS 0.40。手机市场疲弱,Arm 将重心拉至车用、物联网与云端基础设施,并推出 AGI CPU,预计 2027–2028 年贡献逾 2 亿美元;软银约持股 90%,推动协同与 AI 生态布局。

鏈新聞abmedia18 分钟前

Claude Code 负责人 Boris:AI 代理提升人類生产力,改寫软體开发歷史

Claude Code 负责人 Boris Cherny 在 CNBC 访谈指出,AI 代理工具如 Co-Work 能将繁琐任务交给 AI 处理,工程师从操作者转为引导者,能够同时启动多个代理处理除错,显著提升产能。企业须把 AI 当作核心重组流程,AI 在各行各业都展现价值,软件开发将由编写转向以逻辑与对话指引的协作,技术门槛降低,创新创业将出现爆发性增长。

鏈新聞abmedia28 分钟前

里德·霍夫曼:随着 AI 代理需要加密信任,NFT 可能会卷土重来

Reid Hoffman,Greylock 合伙人以及 LinkedIn 联合创始人表示,自主代理将需要基于加密货币的信任系统,才能在开放互联网中进行交易;据他在声明中所说,NFT 可能会卷土重来。 AI 代理与信任基础设施 Hoffman 的言论指向一个潜在的

Crypto Frontier1小时前

Scale AI 收到 $500M 五角大楼合同,用于 AI 数据处理

据 ChainCatcher 称,美国国防部向由 Meta Platforms 支持的 Scale AI 授予了一份 5 亿美元合同,旨在帮助处理数据并支持军事决策。该奖项规模是这家总部位于旧金山的公司在

GateNews2小时前

埃隆·马斯克的 xAI 将更名为 SpaceXAI,作为独立公司状态终止

据 Odaily,埃隆·马斯克宣布 xAI 将更名为 SpaceXAI,因为该公司将不再以独立实体运营。

GateNews3小时前

IBM 在 Think 2026 上通过新的基于智能体的工具扩展企业 AI 套件

根据 IBM,该公司在波士顿举行的 Think 2026 会议上宣布扩展其企业 AI 能力,推出新的基于智能体的工具,帮助组织将人工智能嵌入日常运营。Context Studio 现已普遍可用,使企业能够

GateNews3小时前
评论
0/400
暂无评论