Sapient 开源 10 亿参数模型 HRM-Text;在 46 小时内实现 1,472 美元的训练成本

根据 Beating,Sapient Intelligence 开源了 HRM-Text,其基于分层推理模型(HRM)架构,提出了一款拥有 10 亿参数的文本生成模型。只使用 400 亿个结构化 token,该模型在两台配备 8-GPU H100 的服务器上训练仅需 46 小时,算力成本约为 1B 版本 1,472 美元、0.6B 版本 800 美元;这相较于标准模型,表示预训练算力减少了 130–600 倍。

效率提升来自一种双时间尺度的循环设计,配有分别用于快速与慢速的 Transformer 模块,它们在相同输入上交替运行,并通过状态相加交换信息。完整的工程框架(包括数据抽取与 PyTorch 分布式训练)也已开源。注意,已发布的权重仅用于未对齐的预训练;模型支持前缀补全任务,但无法作为对话式助手运行。

免责声明:本页面信息可能来自第三方,仅供参考,不代表 Gate 的观点或意见,亦不构成任何财务、投资或法律建议。数字资产交易风险较高,请勿仅依赖本页面信息作出决策。具体内容详见声明
评论
0/400
暂无评论