小米发布 ControlFoley,开放源代码的视频音频框架,支持精确的声音控制

据 Beating 称,小米的 AI 团队发布并开源了 ControlFoley,这是一个用于视频音频生成的框架,能够通过文本描述或参考音频为创作者提供对声音风格的精确控制。与传统的 AI 配音系统仅根据视觉内容推断声音不同,ControlFoley 允许创作者在保持音视频同步的同时修改音频特征——例如将敲门声改为金属撞击,或为网球撞击应用鼓点音色。该框架采用时空音频-视觉编码器,并使用时间-音色解耦策略。该项目的技术报告、代码、模型权重和演示现在均已提供。
免责声明:本页面信息可能来自第三方,仅供参考,不代表 Gate 的观点或意见,亦不构成任何财务、投资或法律建议。数字资产交易风险较高,请勿仅依赖本页面信息作出决策。具体内容详见声明
评论
0/400
暂无评论