揭秘!腾讯如何训练多智能体像专家一样设计游戏场景

本文详细介绍了腾讯游戏研发的 IntelliScene 2.0 游戏场景自动布局生成系统,旨在解决游戏场景开发中耗时耗力、高度依赖专家经验的痛点。该系统通过模拟人类设计师的“慢思考”过程,利用视觉引导和多智能体协作,让 AI 具备空间智能,理解场景布局的深层逻辑。IntelliScene 2.0 不再局限于文本指令,而是以图像作为输入,通过先进的图像生成模型(如 Flux 微调)、多视觉基础模型和鲁棒的姿态估计算法,将概念图转化为精确的 3D 场景。系统构建了高质量 3D 资产库和富含“设计思维链”的数据集,确保 AI 生成场景符合美学和逻辑。实验结果表明,该方法在合理性、现实性和美学吸引力方面均优于传统方法,并获得专业美术从业者的高度认可。该研究成果已在 ACM SIGGRAPH Asia 上宣讲。


2025-12-22 18:10 广东

src="https://api.eyabc.cn/api/picture/scenery/?k=5cfab70d&u=https%3A%2F%2Fmmbiz.qpic.cn%2Fsz_mmbiz_jpg%2Fj3gficicyOvauw6YkWuakkTicxlvkCYGF2ohjF465pMMXuickl2iaMdSumjlzvmDgNmz9LcZkEia2sOVvpXXRtqwh5ZQ%2F0%3Fwx_fmt%3Djpeg" />

当AI拥有“美术审美”

揭秘!腾讯如何训练多智能体像专家一样设计游戏场景

引言

在游戏开发中,大量可探索区域的环境与道具摆放,需要美术与关卡团队反复挑选资产、调整位置、尺度、朝向,并处理“有支撑、无穿插、留通行”等基础约束。这类工作细节密度高、迭代频繁,往往消耗大量制作时间。围绕提升场景制作的稳定性与一致性,腾讯游戏持续探索将AI能力与传统几何、物理工具链结合,在可控、可编辑的制作流程中,为场景搭建提供更稳定的辅助能力与可编辑的布局起点,帮助团队把更多精力投入到核心体验与细节打磨上。

需要说明的是,这类能力主要用于研发制作环节:AI输出作为可编辑的候选方案,由美术、策划、程序在工作流中审阅、调整与验收。核心关卡、关键镜头与高关注区域仍以专业美术的创作与精细打磨为主;AI更适合用于过渡区域、边缘区域与远景背景等非核心但必须覆盖的部分(这些区域往往没有过多的艺术家的创作空间深度、自由度,美术做起来也非常痛苦、机械),在叙事合理性、资产风格一致性与基础空间美学、物理约束上提供辅助,减少PCG规则带来的重复、穿帮感,让游戏团队把宝贵的手工精力集中投入到玩家最在意的体验与细节上。

围绕这一目标,腾讯游戏技术团队提出了游戏场景自动布局生成系统 IntelliScene,并在持续迭代中形成 2.0 阶段的方案与原型。相关研究成果论文《Imaginarium: Vision-guided High-Quality Scene Layout Generation》已在最近举办的国际计算机图形学会议ACM SIGGRAPH Asia上进行了宣讲

1.背景介绍

1.1游戏场景开发核心痛点

在介绍IntelliScene 2.0的技术路径前,我们先要了解,游戏场景搭建的核心痛点。 

我们在玩《荒野大镖客》、《塞尔达传说》等开放世界游戏时,总是会热衷于探索那些林中小屋、城镇民居,这些“不那么核心”的场景却是玩家沉浸感的重要来源,而大多数时候,这些游戏场景需要美术专家团队“一砖一瓦”地搭建,整个过程不仅耗时耗力,更高度依赖专家经验。

而从设计流程来看,这一过程如同冰山:水面之上是最终场景效果,水面之下则是策划、美术、程序等多角色协作的复杂设计链条

揭秘!腾讯如何训练多智能体像专家一样设计游戏场景

因此,我们探索以AI辅助乃至自动化部分环节,特别是大世界游戏中广阔非核心区域的重复性摆放工作从而显著提升整体开发效率。

在这种生产条件下,更适合优先推进的是可工程化、可验证的环节:例如大规模细节摆放的辅助、基础约束检查、局部细节补齐等,并通过白盒化与可编辑接口,保证结果可控、可追溯、便于人工校正。

1.2破局的视角:空间智能的开发

要让AI自动生成高质量、有逻辑的3D游戏场景,本质上是在解决一个更根本的问题—AI的空间智能。当顶尖实验室纷纷强调,AI必须从“理解文本和图像”迈向“理解三维空间及其几何与物理规则”的阶段,这意味着游戏场景生成早已不是把模型摆上去就结束了,而是需要AI具备对空间结构、物体功能关系、叙事逻辑、物理约束等多层语义的整体理解。

近年来,微软、谷歌等科技厂商陆续投入World Model(世界模型)的研究,通过让AI在虚拟世界中学习物理规则、适应复杂3D环境,从而获得类似“实体智能体”的认知能力。李飞飞更是直言“空间智能将是AI的下一个前沿”。

这些判断与趋势指向同一个结论:

只有当AI具备空间理解、物理推理、目标规划等能力,它才能真正接过场景设计师的工作,生成满足美学、逻辑与游戏性的完整3D场景。

换句话说,AI场景生成的突破口不在于“更快摆放素材”,而是让AI理解“为什么这里应该放这个物件”。这是整个行业都在追求的空间智能能力,也是我们试图解决的核心难题。

2.明确设想:让AI学会“慢思考”的场景设计

为了快速地生成游戏场景,传统的方法主要有程序化内容生成(PCG)或纯数据驱动的AI模型,但这些方法存在明显局限。

PCG基于规则生成,速度快但缺乏深层逻辑,容易产生随机且不合理的设计;

纯数据驱动的AI模型依赖大规模3D数据且逻辑如同“黑盒”

与之相比,人类专家在进行场景设计时,往往伴随着复杂的推理、规划和对场景布局的深刻理解,这是一个“慢思考”过程,涉及审美、功能性和故事性的综合平衡。

基于这一背景,我们提出了一个设想:通过AI模拟人类的“慢思考”过程,构建一个能够理解“Reasoning/know-how”的智能系统。这不仅要求AI具备审美和逻辑推理能力,还需要它能够像人类专家一样使用工具进行多维度协作。这一设想的核心是开发一个多智能体系统,每个智能体负责特定任务,共同完成复杂的场景构建,从而超越传统方法的局限性。

在最初的探索阶段,我们构建了 IntelliScene 1.0,尝试用多个 LLM Agents 协同完成小规模的场景装饰任务,让 AI 像人一样“先想清楚再动手”。

这一阶段,我们验证了几个关键点:

基于大模型的推理式摆放在逻辑上是可行的

专家设计流程可以被抽象为可复用的 SOP 数据

揭秘!腾讯如何训练多智能体像专家一样设计游戏场景

IntelliScene 1.0的工作流程示意图

但其局限性也很明显:

空间与物理理解不足,容易出现不合理摆放

几何精度有限,难以精确控制位置、旋转与尺度

纯文本交互限制了表达的丰富性和直观性

这些问题最终指向一个结论:

文本推理很强,但未能充分利用视觉信息所蕴含的语义、空间和风格细节,而这正是人类专家设计时的关键依据

这直接促成了 IntelliScene 2.0 的整体方案转向。

3.解决方案:以视觉引导为核心

3.1 Intelliscene 2.0介绍

IntelliScene 2.0 升级的灵感,源于图像生成与视觉理解模型的飞速发展其核心思想是利用图像作为更丰富、更直观的指导来生成3D场景布局。与1.0相比,2.0版本不再局限于文本,而是通过图像蕴含的丰富信息(如语义、空间关系和风格)来驱动场景构建。

揭秘!腾讯如何训练多智能体像专家一样设计游戏场景

IntelliScene 2.0的工作流程示意图

IntelliScene 2.0核心模块包括:

高质量的3D资产库,包含带有设计思维链的高质量场景图片数据集,用于训练和引导视觉模型;

强大的视觉引导与解析能力,结合了先进的图像生成模型(如Flux微调)和多种视觉基础模型(分割、深度估计等);

鲁棒的、融合视觉语义与几何信息的姿态估计算法;

支持内部布局(比如在柜子里放书),提升细节真实感;

高效的资产自动标注系统。

AI和传统的几何、物理工具。

3.AI工作流程:从概念到3D场景的构建

具体来说,Intelliscene 2.0的设想是构建一个多智能体工作流,模拟专业美术设计师的设计与构建过程。整个过程信息白盒化,用户可随时干预和调整。系统首先利用图像生成模型(如经过微调的FLUX模型)根据用户输入(如“一个配有复古家具的现代客厅”)生成一张引导图片,这张图片充当场景的“原画”或概念图。然后,系统对引导图片进行深度解析,包括物体识别、分割和场景图构建,最后结合3D资产库进行精确摆放和优化。具体过程如下:

揭秘!腾讯如何训练多智能体像专家一样设计游戏场景

第一步:高质量场景数据集提供视觉参考

揭秘!腾讯如何训练多智能体像专家一样设计游戏场景

要让AI具备良好的审美和设计能力,高质量的数据是基石。但我们认为,数据本身不是关键,数据背后所蕴含的专家智慧和设计思想才是真正的宝藏因此,我们构建了一个包含约500个类别、总计超过2000个高质量写实3D模型的资产库涵盖室内外常见场景物体,来源包括开源模型、自制模型以及商业模型。每个模型都有详细的标注信息如尺寸、描述和空间关系全面而细致的标注信息,为后续智能体理解和使用打下了坚实基础这些场景不仅仅是模型的堆砌,更是专家们设计理念、叙事技巧和美学追求的完整体现。

揭秘!腾讯如何训练多智能体像专家一样设计游戏场景

同时,我们还建立了一个包含20个场景类别、共计147个高质量写实3D场景的数据集每个场景的平均渲染图中包含约43个3D模型。数据集的核心标准是:它必须是带有“设计思维链”(Reasoning)的高美学分数数据集,同时满足故事性、美学价值与清晰度三项要求。这些数据集不仅规模超越主流开源数据集,更是专家‘为什么这么摆’的宝贵思考过程。

数据集的高标准确保了AI在学习过程中能够吸收专家智慧,而非简单模仿数据。例如,一个“天台自动售货处”场景的叙述会解释空间功能、物体摆放原因,以及如何通过布局体现叙事意图。这为后续的视觉引导提供了坚实基础。

第二步:模型微调实现视觉引导生成

在拥有高质量数据集的基础上,下一步的关键在于使图像生成模型(我们选择以 FLUX 为基础模型)能够理解并生成既符合资产库风格、又具备美观布局的引导图像。此阶段的核心目标,是实现生成图像中的物体与 3D 模型库中资产之间的高度相似,从而提升后续识别与摆放步骤的准确性。

揭秘!腾讯如何训练多智能体像专家一样设计游戏场景

右边的对比图直观展示了微调前后的效果差异

为此,我们借鉴了 DreamBooth 的微调思路,并将其对齐范围从单个物体扩展至整个场景中的多个物体。

微调过程中,为模型库资产引入特殊类标识符,监督模型学习特征;采用分层优化策略,以防止过拟合;并使用维持模型原有的语义响应能力。

实验结果表明,经过微调后的FLUX模型,在生成图像与3D模型库的对齐性上有了显著提升,且保持了生成多样化场景的能力。此外,该微调流程具备对项目组预定义资产库的自动学习能力。这一步骤的核心是让AI充当“场景原画师”,生成视觉参考图,作为后续解析的蓝图。用户输入文本指令后,系统自动产出引导图片,从而将抽象需求转化为具体视觉指导。

第三步:视觉解析与提取几何特征

生成引导图片后,AI需要对其进行精确解析,以提取物体、几何关系和语义信息。这主要依赖于我们的“场景DCC搭建Agents”,它们负责图像解析、3D模型检索、精确姿态估计和最终的布局优化。

首先我们综合运用多种视觉基础模型(如VLM、Grounding DINO和SAM)进行前景物体的检测与分割通过多轮VLM分析识别物体并映射到类别体系然后使用目标检测模型定位物体,再通过实例分割得到精细Mask。

揭秘!腾讯如何训练多智能体像专家一样设计游戏场景

针对可能存在物体遗漏的情况,我们借鉴人类设计师的观察习惯,设计了一套补充检测与分割的算法流程。该算法首先计算图像中的未标注区域识别出潜在的未检测物体区域。针对这些区域,再次调用视觉语言模型进行物体识别,并进行二次检测与分割,从而提升整体标注的完整性。

在获得物体的2D分割后,我们进行深度估计,结合深度图和预估的相机内参,将深度图像“提升”为3D点云。之后对每个分割出的物体的对应点云,进行有向包围盒Oriented Bounding Box (OBB) 拟合,并进行去噪处理,得到物体在3D空间中的大致位置和尺寸,最终分析场景的几何特征,为后续的3D重建做准备

揭秘!腾讯如何训练多智能体像专家一样设计游戏场景

第四步:场景图构建全局优化

在完成对场景中单个物体的理解后,我们进一步通过构建“场景图”(Scene Graph)来建模物体之间的复杂关系。该方法继承了 IntelliScene 1.0 中基于文本生成场景图的经验,并在 2.0 版本中将其升级为基于VLM的实现方式。

揭秘!腾讯如何训练多智能体像专家一样设计游戏场景

图是根据一张卧室图片构建出的视觉场景图的可视化

在获取图像中物体的分割信息、大致三维位置和尺寸以及它们之间的关系后,AI从资产库中检索最匹配的3D模型。检索方案综合考虑类别、外观特征和尺寸信息,确保模型在视觉和几何上贴合。即使引导图风格与库不完全一致,系统也能基于语义相似性找到合适资产,或衔接生成模型现场合成新资产。

揭秘!腾讯如何训练多智能体像专家一样设计游戏场景

在检索到匹配的3D模型之后,最关键且最具挑战性的一步是精确还原其在引导图像中的朝向与位置,即完成6D位姿估计。我们首先集中解决旋转估计问题,并采用了从粗到精的渐进优化策略。

粗筛选:首先为检索到的3D模型快速生成大量不同观察角度的“标准照”(比如162张模板图)。然后,利用DINOv2视觉模型,去比较引导图中真实物体和这些“标准照”在视觉特征上的相似度,挑出最相似的若干个(Top-K)候选朝向。

揭秘!腾讯如何训练多智能体像专家一样设计游戏场景

精细择优:针对候选朝向逐一分析通过算法量化模型渲染图转为实际图像时的形变程度,优先选择最接近纯旋转变换的候选朝向,从而精准估计物体方位该方法不仅能够精准锁定最佳朝向,也对那些形状对称、易产生朝向歧义的物体具有较好的判别能力。

揭秘!腾讯如何训练多智能体像专家一样设计游戏场景

几何信息增强:针对2D图像特征旋转估计在光照变化或遮挡下不稳定的问题,我们引入基于场景点云计算的物体3D包围盒(OBB)主要朝向面作为几何参考方向。通过自适应融合视觉结果(鲁棒性强但精度有限)与几何结果(清晰时准确),实现了视觉与几何信息的互补,显著提升了旋转估计的稳定性和准确性。揭秘!腾讯如何训练多智能体像专家一样设计游戏场景

全局布局优化针对因遮挡或误差累积导致的物体穿插、悬空等布局不合理问题,我们引入全局优化机制。该方法利用场景图中的物体间逻辑关系(如“位于上方”“紧靠墙壁”)作为硬性约束,在保证无重叠、有支撑、靠墙等物理条件的同时,最小化各物体的位置调整幅度,以维持与输入图像的相对布局。通过模拟退火等智能优化算法搜索全局最优解,从而生成既符合空间约束又视觉协调的三维场景。

除了基于场景图的逻辑约束优化,我们还会引入简单的物理仿真,比如重力,来进一步调整和优化物体的最终摆放姿态,确保它们能够稳定地置在支撑物上,或者自然地堆叠。这有助于提升场景的真实感和物理合理性。

4. 效果评估与可视化

为了验证我们方法的效果,我们进行了一系列实验和评估。首先,我们邀请了100名美术专业的大学生,对我们的方法与当前几种先进的场景生成方法生成的无纹理场景,在“合理性与现实性”以及“美学吸引力”两个维度上进行两两比较的偏好率评估。从表格结果可以看出,我们的方法在两个维度上均获得了显著更高的用户偏好率。揭秘!腾讯如何训练多智能体像专家一样设计游戏场景

我们还邀请了公司外部的一些资深游戏美术从业者,对我们生成的带有纹理的完整3D场景进行质量评估。 评估者可以在场景中交互式地改变视角。我们采用1到5分的评分制度,3分代表与该领域人类专业人士的平均水平相当。评估主要聚焦于三个关键维度:整体场景构图、语义逻辑的合理性以及美学吸引力。 我们的AI生成结果在专业人士看来,有些case从业者无法分辨是外包摆的还是AI摆的。

AI能很好地“看懂”引导图并还原场景。关键物体的恢复率和类别准确率都超过九成,AI对布局的理解也很到位。简单说,我们生成的3D场景和原图高度一致,AI场景搭建智能体们忠实再现了引导图的内容。

总结

总结来看,IntelliScene 2.0 的研发,为AI理解与生成三维信息提供了新的路径它不仅学习了人类设计师独有的美感,更深入掌握了场景布局背后的逻辑与智慧,使生成的场景更加逼真、富有沉浸感。

同时,这一过程也为我们带来三点启发

- 第一,多智能体协作是解决复杂AI任务的有效路径。

- 第二,在3D场景生成中,视觉与(结构化)语言的结合能互相补强。

- 第三,也是最核心的,我们深刻认识到,高质量的、蕴含专家思维链(Reasoning)的数据,是构建有效AI场景生成能力的根本。这不仅是我们的技术壁垒,更是我们持续尊重并依赖人类专家智慧的体现。相信这三点会逐渐成为物理世界具身智能、数字虚拟人等领域的共识。

游戏场景因其高度复杂的三维结构、物理规则与叙事要求,训练AI空间认知能力的理想平台。腾讯游戏长期致力于在游戏领域中推进AI技术的开发与应用,未来,希望能联合更多专家共同研发更端到端的、具备空间认知能力的摆放大模型。而我们当前的系统,恰好可以为训练下一代模型,提供海量高质量的结构化场景数据,我们将持续探索更多可能性,让游戏成为攻克人工智能前沿难题的重要试验田。

视频

腾讯游戏智能场景生成系统intelliscene亮相SIGGRAPH Asia,AI能像人类设计师一样思考,根据文字自动生成风格统一、布局合理的非关键3D场景,从而让美术团队能更专注于核心创意设计,下方这个视频带你快速get:

注释:

文中未说明来源的图片内容均来自演讲《Imaginarium: Vision-guided High-Quality Scene Layout Generation》,SIGGRAPH Asia 2025

揭秘!腾讯如何训练多智能体像专家一样设计游戏场景

揭秘!腾讯如何训练多智能体像专家一样设计游戏场景

阅读原文

跳转微信打开

AI 前线

Ilya Sutskever – 我们正从扩展时代迈向研究时代

2025-12-27 16:59:03

AI 前线

速卖通1月7日举办品牌出海大会,挑战亚马逊争夺主场话语权

2025-12-27 23:09:44

12 条回复 A文章作者 M管理员
  1. 这系统听着挺玄乎,真能替代美术吗?

  2. 前几天刚入行,想问下这种技术对新手是利好还是冲击啊?

  3. AI现在都能搞空间智能了?666

  4. 感觉还行,不过非核心区域用AI凑合也正常

  5. 专家设计思维链这个点子绝了,难怪生成的场景不穿帮

  6. 我之前也踩过这坑,纯PCG摆出来的东西根本没法用😂

  7. 蹲个后续,想知道实际项目里跑得咋样

  8. 楼主说的“慢思考”是不是有点夸张了,AI真有那么聪明?

  9. 视觉引导比纯文本强多了,至少看得懂上下文

  10. 我们公司也在搞类似的东西,但精度差远了

  11. 这个配置在M1芯片上能跑吗?想本地试试

  12. 听说腾讯这团队招人,会Python和3D的可以冲一波?

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索