发帖
客户端
扫码下载

[AI] 腾讯混元世界模型1.5发布:实时交互与三维一致性的新突破

[复制链接]
3 |0
未来视野 发表于 昨天 22:51 | 显示全部楼层 |阅读模式
这里可以调整气泡内文字大小!滑动试试吧! ×
12 px
26 px
12月17日,腾讯正式发布了混元世界模型1.5(Tencent HY WorldPlay),该模型在实时世界建模领域取得了显著进展。据官方介绍,混元世界模型1.5首次开源了业界最为系统、全面的实时世界模型框架,覆盖了数据、训练、流式推理部署等全链路环节,并引入了重构记忆力、长上下文蒸馏、基于3D的自回归扩散模型强化学习等创新算法模块。

混元世界模型1.5带来了世界建模的全新可能性,用户能够在生成的三维世界中自由移动探索。当用户离开某一区域后再次返回时,模型能够精准“记住”该区域的三维结构,确保场景的前后一致性,这一空间记忆能力标志着模型在三维世界理解上的重大突破。此外,用户还可以将交互的3D场景导出为可重复使用的3D点云,为内容创作提供了更多便利。

该模型具备三大核心能力:实时的交互生成、长范围的3D一致性以及多样化的交互体验。通过原创的Context Forcing蒸馏方案和流式推理优化,模型能够以24 FPS的速度生成720P的高清视频;重构记忆机制则支持分钟级内容的几何一致性生成,有助于构建高质量的3D空间模拟器。同时,混元世界模型可广泛应用于不同风格的游戏和现实场景,支持第一和第三人称视角,以及实时文本触发事件和视频续写等功能。

在技术层面,混元世界模型1.5首次开源了业界最为系统、全面的实时世界模型训练体系。技术报告中详细公开了模型预训练、持续训练、自回归视频模型强化学习、带记忆力的模型蒸馏等训练细节,并深入阐述了模型在控制空间、记忆、蒸馏、强化学习后训练等模块上的创新设计。该模型的核心是WorldPlay自回归扩散模型,通过Next-Frames-Prediction视觉自回归任务进行训练,实现了长范围几何一致性的实时交互式世界建模。

为了进一步提升生成视频的视觉质量和几何一致性,混元团队还构建了双分支动作表征、上下文记忆重构机制和上下文对齐蒸馏技术等核心创新。同时,一套新颖的基于3D奖励的强化学习后训练框架也被引入,以增强生成内容的品质。在数据方面,混元团队通过自动化3D场景渲染流程获得了大量高质量的真实世界渲染数据,进一步激发了核心算法的潜力。

腾讯混元团队在世界模型技术领域持续深耕。此前,该团队已发布了混元3D世界模型1.0和1.1版本,分别支持文本或单张图片输入生成兼容图形学管线的3D场景,以及多视图或视频一键创造3D世界。此次发布的混元世界模型1.5进一步拓展了世界建模的可能性,为AI生成内容领域打开了新的想象空间。

未来的AI将不再局限于生成文本、图像或视频等单一模态,而是能够创造实时探索、可交互、空间一致的完整“世界”。这种全新的内容生成模式将在AI游戏开发、影视制作、虚拟现实以及具身智能研究等多个领域发挥重要作用。例如,在AI游戏开发中,它可以作为智能关卡生成器,根据玩家的文本描述实时创建可探索的游戏世界;在影视制作和虚拟现实领域,创作者可以通过简单的文本指令快速预览和迭代场景设计。

混元世界模型1.5的在线体验网站、Github链接、Hugging Face链接以及项目主页也已同步上线,供研究人员和开发者深入探索和使用。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

热门版块
数码资讯
最新数码动态,尽在掌握。
快速回复 返回顶部 返回列表