HF 热榜趋势第一,超百万人围观,混元 3D 世界模型这份技术报告推荐给你

文章详细介绍了腾讯混元最新发布的 HunyuanWorld-1.0 3D 世界模型,该模型是首个开源且兼容传统 CG 管线的可漫游世界生成模型。它融合了视频驱动和三维驱动方法的优势,能够依据文本或图像输入生成沉浸式、可探索、可交互的 3D 场景。技术亮点包括 360°沉浸体验、工业级兼容性(支持导出标准 3D 网格格式)和原子级交互(物体可分离)。模型核心技术框架包含全景世界代理生成、基于语义的世界分层与分层世界重建,并针对全景图生成中的挑战提出了高程感知增强和环形去噪策略。此外,文章还介绍了长距离、世界一致的漫游拓展技术,并通过 VR、游戏开发、物体编辑和物理仿真等应用场景展示了该模型的巨大潜力。


src="https://api.eyabc.cn/api/picture/scenery/?k=24390ddc&u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2F9u3YmmgmjbRK4y6VBVpA6iatNS7vaLBFqrEor4HtZrOcBbaDLbbzjnxSJvQ9dfHFUjsHia3FetUPQaOibR3lp6FmQ%2F0%3Fwx_fmt%3Djpeg">

7 月 27 日腾讯混元正式发布混元3D世界模型 1.0,并全面开源,并于当天公开了模型的技术报告,很快引起热议,论文今天在大模型开源社区HuggingFace的热门趋势榜上排名第一。


HF 热榜趋势第一,超百万人围观,混元 3D 世界模型这份技术报告推荐给你

同时,在X上的官宣帖子当天即获得超过100万的关注。


HF 热榜趋势第一,超百万人围观,混元 3D 世界模型这份技术报告推荐给你

这是首个开源并且兼容传统CG管线的可漫游世界生成模型,为游戏开发、VR、数字内容创作等领域带来了全新的可能性,更重要的是,它让普通人也能轻松创造属于自己的3D世界。


HF 热榜趋势第一,超百万人围观,混元 3D 世界模型这份技术报告推荐给你


引言

从文本或图像生成沉浸式且可交互的3D世界,是计算机视觉与图形学领域的核心挑战。现有世界生成方法主要分为两类:

  • 视频驱动方法 想象一下制作动画片,传统的视频生成方法就像是一帧一帧地画画。虽然能画出丰富多彩的内容,但存在缺乏3D一致性逐帧渲染成本高昂无法与现有3D建模工具兼容致命问题

  • 三维驱动方法 :直接生成3D形式世界场景而不是视频序列这种方法虽具备更好的3D结构一致性,却受限于3D训练数据稀缺3D表征内存效率问题此外现有3D生成方法往往场景表示一个整体无法场景中的物体进行单独交互

技术亮点

混元3D世界模型1.0HunyunWorld-1.0融合两类方法优势的创新框架,能够依据文本或图像输入生成沉浸式、可探索、可交互的3D场景。

  • 360°沉浸体验 :通过全景复杂的3D世界高效表征360覆盖2D图像代理后续生成完整3D世界建模提供丰富的空间信息


HF 热榜趋势第一,超百万人围观,混元 3D 世界模型这份技术报告推荐给你

  • 工业级兼容性 :生成的世界场景支持导出标准3D网格格式能够无缝导入现有3D建模软件主流游戏引擎用于二次开发;


HF 热榜趋势第一,超百万人围观,混元 3D 世界模型这份技术报告推荐给你

  • 原子级交互 :通过物体解耦3D建模方式生成物体背景可分离3D世界支持精准的物体交互控制提升生成世界操作自由度。


HF 热榜趋势第一,超百万人围观,混元 3D 世界模型这份技术报告推荐给你

HunyunWorld-1.0采用生成式架构,结合全景图像合成与分层3D重建技术,实现了高质量、沉浸式的可漫游3D场景生成。该模型通过语义分层的3D场景表征与生成算法,同时支持"文生世界"和"图生世界"两种生成方式。主要技术框架包括三部分,即全景世界代理生成、基于语义世界分层与分层世界重建

HF 热榜趋势第一,超百万人围观,混元 3D 世界模型这份技术报告推荐给你

3D全景代理生成


3D全景可以捕获场景的360°视觉信息,通过等距柱状投影ERP转化全景图像,这使其成为3D世界生成的中间媒介HunyunWorld-1.0正是通过文本或图像条件生成全景图,作为驱动3D世界生成的代理媒介

HunyunWorld-1.0全景生成基于扩散变换器(Diffusion Transformer, DiT)框架同时支持输入文本图像生成3D全景

  • 文本到全景生成 :将文本输入prompt通过文本编码器TextEncoder转化扩散模型输入条件

  • 图像到全景生成 :将输入图像投影至全景空间,并通过变分自编码器(Variational Autoencoder, VAE)将其编码至潜在空间(LatentSpace)得到条件图像的潜在表示(LatentTokens)。该潜在表示会与随机噪声的潜在表示(Noisy Latent)拼接,输入扩散模型进行去噪,生成最终的3D全景世界代理。

HF 热榜趋势第一,超百万人围观,混元 3D 世界模型这份技术报告推荐给你

相较于通用图像生成,全景图生成面临两大独特挑战:球面投影导致的几何畸变以及全景拼接引发的边界不连续问题。针对上述挑战,HunyunWorld-1.0引入两项关键策略:

  • 高程感知增强(Elevation-Aware Augmentation训练阶段,以一定概率和位移比例对真实全景图像进行随机垂直偏移,以增强对视点变化的鲁棒性。

  • 环形去噪(Circular Denoising)推理阶段,在去噪过程中采用环形填充(Circular Padding)与渐进混合(Progressive Blending)技术,确保全景图边界的结构与语义连续性。

HF 热榜趋势第一,超百万人围观,混元 3D 世界模型这份技术报告推荐给你

HunyunWorld-1.0可以生成高质量3D全景

文生360°全景指标

HF 热榜趋势第一,超百万人围观,混元 3D 世界模型这份技术报告推荐给你

图生360°全景指标

HF 热榜趋势第一,超百万人围观,混元 3D 世界模型这份技术报告推荐给你

分层世界重建


尽管全景图能有效充当世界代理 ,但其无法提供被遮挡区域的信息,无法实现自由探索(如视角平移)为了解决该问题HunyunWorld-1.0创新性提出了"语层次化3D场景表征及生成算法" ,将复杂3D世界解构不同语义层级实现前景与背景、地面与天空的智能分离基于分层表示搭建3D世界

  • 基于语义世界分层

为实现语义分层自动化,论文利用智能体(VLM视觉语言模型)识别可交互物体,然后采用"洋葱剥离法"分离天空、背景、前景,最终达到前景物体与背景分离,地面与天空分层处理的效果。智能世界分层方法主要包含三阶段流程:实例识别(检测场景中的独立物体图层分解(将物体分配到语义层图层补全(生成被遮挡区域的合理内容通过分层方案支持后续分层3D重建

  • 分层深度估计对齐

基于全景世界代理,我们预测各图层的深度并执行跨图层深度对齐。采用深度估计模型MoGeUniK3D获取原始全景图基础深度图对后续图层分别预测深度最终通过跨层深度匹配技术将各层深度基础深度图对齐具体而言跨层深度方法最小化不同图层重叠区域的深度距离确保跨图层深度关系一致性维持重建3D场景的几何连贯性

HF 热榜趋势第一,超百万人围观,混元 3D 世界模型这份技术报告推荐给你

  • 分层3D世界生成

给定分层图像深度对齐后的各层深度论文采用 WorldSheet提出网格表示(Grid Mesh Representation) 进行薄板变形(Sheet Warping) 3D全景转换为3D网格进行实现世界重建

针对每个前景层,HunyunWorld-1.0提供直接投影法3D生成两种重建策略前者基于物体深度与语义掩码,通过薄板变形将前景物体直接转换为3D网格论文提出极区平滑处理(Polar Region Smoothing)网格边界抗锯齿(Mesh Boundary Anti-Aliasing)保证重建世界质量后者借助3D物体生成大模型(如Hunyuan3D2.5创建高质量3D物体资产通过自动布景算法将生成物体植入3D场景

此外论文针对背景层天空层进行重建背景层全景图,论文采用自适应深度压缩确保深度分布合理性通过薄板变形转换为3D网格。天空层则是使用天空图像重建,其深度设为大于背景深度固定值确保天空深度合理性。除通过薄板变形获取传统网格表示外,HunyunWorld-1.0支持HDRI环境贴图(HDRI Environment Map) 表示法,以在VR应用中实现更逼真的天空光照效果。

文生3D场景指标

HF 热榜趋势第一,超百万人围观,混元 3D 世界模型这份技术报告推荐给你

图生3D场景指标

HF 热榜趋势第一,超百万人围观,混元 3D 世界模型这份技术报告推荐给你

距离世界一致漫游拓展


尽管分层世界重建提供了初步场景探索能力,其仍面临遮挡视图与探索范围受限(Limited Exploration Range) 的挑战。为突破此局限,HunyunWorld-1.0提出基于视频生成的视图补全模型 Voyager支持空间一致世界拓展与长距离探索从初始场景视图和用户指定相机轨迹中,合成空间连贯的RGB-D视频。

HF 热榜趋势第一,超百万人围观,混元 3D 世界模型这份技术报告推荐给你

  • 空间一致的视频扩散模型

提出可扩展世界缓存机制以维持空间一致性并抑制视觉幻象(Visual Lallucination)机制利用生成的 3D 场景构建一个初始的 3D 点云缓存,然后将此缓存投影到目标相机视图中,为扩散模型生成提供指导。生成的帧不断更新并扩展世界缓存,从而创建一个闭环系统,该系统支持任意相机轨迹,同时保持几何一致性。

  • 长距离世界探索

为解决单次生成长距离视频的局限,提出结合平滑视频采样的世界缓存方案,用于自回归世界探索。

支持VR游戏物体编辑物理仿真无限应用可能


得益于HunyuanWorld-1.0的分层3D网格表示法,生成的3D网格世界能够高效支持多种专业应用场景,包括虚拟现实VR、游戏开发、物体编辑和物理仿真四大核心领域。

HF 热榜趋势第一,超百万人围观,混元 3D 世界模型这份技术报告推荐给你

  • 虚拟现实(VR)应用 

通过全景世界代理(panoramic world proxies),HunyuanWorld-1.0生成360°无缝覆盖的环境,可直接部署至主流VR平台如Apple Vision Pro支持自由视角旋转和探索,适用于虚拟旅游、教育培训等场景,提供真实的临场感。

  • 游戏开发应用 

生成的3D网格世界导出为标准格式,无缝集成行业引擎如Unity和Unreal Engine,支持快速构建多样化场景,包括外星景观、中世纪遗迹和未来都市加速游戏原型开发和内容迭代,同时保持高保真视觉质量

  • 物体编辑应用 

基于解耦对象表示(disentangled object representations),用户可在场景中对单个元素进行精确3D操控,包括平移、旋转和缩放,而不会破坏环境整体性。这为交互式设计提供了灵活性,例如在虚拟环境中调整物体布局或创建定制场景,适用于建筑预览、艺术创作等领域,提升用户控制的自由度。 

  • 物理仿真应用 

导出的分层网格兼容主流物理引擎,支持碰撞检测、刚体动力学和流体模拟等真实世界行为仿真。这确保了场景元素(如物体和地形)的物理属性准确再现,适用于自动驾驶测试、工程模拟等专业领域,实现从视觉到行为的全链路一致性。

AI 前线

一场由 AI 拯救的数据重构之战

2025-12-23 15:10:04

AI 前线

Meta SAM3 开源:让图像分割,听懂你的话

2025-12-23 15:10:22

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索