发帖
客户端
扫码下载

[AI] 腾讯混元开源端到端视频音效生成模型,实现视听沉浸体验

[复制链接]
4 |0
数码小喇叭 发表于 昨天 19:15 | 显示全部楼层 |阅读模式
这里可以调整气泡内文字大小!滑动试试吧! ×
12 px
26 px
腾讯混元今日宣布开源Hunyuan-Foley端到端视频音效生成模型,该模型可通过输入视频和文字描述,为无声视频自动匹配电影级音效。据官方介绍,该模型突破了AI生成视频“有画面无声音”的局限,通过“看懂画面、读懂文字、配准声音”的技术路径,为短视频创作、影视制作、广告创意及游戏开发等领域提供沉浸式视听解决方案。

技术实现层面,混元团队构建了约10万小时级的高质量TV2A数据集,通过自动化标注和过滤技术,使模型具备强泛化能力。该模型可在复杂视频条件下生成音画同步、语义对齐的高品质音频,包括环境音效与背景音乐,显著提升视频真实感。例如输入文字描述“引擎轰鸣加速”或“幼狐爪下落叶沙沙声”,模型即可生成与画面精准匹配的音效。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

热门版块
数码资讯
最新数码动态,尽在掌握。
快速回复 返回顶部 返回列表