腾讯混元今日宣布开源Hunyuan-Foley端到端视频音效生成模型,该模型可通过输入视频和文字描述,为无声视频自动匹配电影级音效。据官方介绍,该模型突破了AI生成视频“有画面无声音”的局限,通过“看懂画面、读懂文字、配准声音”的技术路径,为短视频创作、影视制作、广告创意及游戏开发等领域提供沉浸式视听解决方案。
技术实现层面,混元团队构建了约10万小时级的高质量TV2A数据集,通过自动化标注和过滤技术,使模型具备强泛化能力。该模型可在复杂视频条件下生成音画同步、语义对齐的高品质音频,包括环境音效与背景音乐,显著提升视频真实感。例如输入文字描述“引擎轰鸣加速”或“幼狐爪下落叶沙沙声”,模型即可生成与画面精准匹配的音效。 |