Google 开源 DiffusionGemma 模型:在 H100 上每秒 1000+ 个 Token,速度提升 4 倍

据 Beating 监测,Google 发布了一个名为 DiffusionGemma 的开源文本生成模型,它使用基于扩散的机制,通过并行块来生成文本,而不是以逐 token 的方式顺序生成。该 26B 参数模型在混合专家架构下,每次前向传递只激活 38 亿参数,实现了本地 GPU 推理 4 倍的速度提升。

在单块 NVIDIA H100 GPU 上,DiffusionGemma 的吞吐量超过每秒 1000 tokens,而消费级 RTX 5090 则超过每秒 700 tokens。经过 4-bit 浮点量化后,该模型所需显存低于 18GB。DiffusionGemma 权重现已在 Hugging Face 开源,并得到 MLX、vLLM、Unsloth 以及 NVIDIA NeMo 的支持。

免责声明:本页面信息可能来自第三方,仅供参考,不代表 Gate 的观点或意见,亦不构成任何财务、投资或法律建议。数字资产交易风险较高,请勿仅依赖本页面信息作出决策。具体内容详见声明
评论
0/400
暂无评论