文章详细介绍了南京大学、中科院自动化所、北京大学团队发布的长达 83 页的《统一多模态理解与生成模型综述》。综述旨在解决当前多模态 AI 领域技术路线不统一、关键设计缺乏共识等问题,通过梳理逾 750 篇论文,构建了清晰的分类体系和全景式技术视图。文章深入探讨了统一“理解”与“生成”的必要性,并系统分类了建模策略(如外部服务集成、模块化联合、端到端统一等)、编码策略(连续、离散、混合)及解码策略(连续、离散、混合)。此外,综述还详细阐述了 UFM 模型的预训练与微调过程、评估基准的现状与不足,以及 UFM 在机器人、自动驾驶、世界模型、医疗和视觉任务等前沿应用。最后,文章对建模策略、统一分词器、训练范式和评估基准四个方面的未来研究方向进行了深度洞察,为该领域的进一步发展提供了系统性参考。
从 GPT-4o 的惊艳亮相到 Gemini 的持续迭代,AI不仅能理解文本,更能看懂图像、听辨声音、创作视频,实现跨模态的联合理解与生成。
这一前沿领域的核心,正是统一多模态基础模型(Unified Foundation Models, UFMs)。
然而,尽管闭源模型取得了巨大成功,开源社区在构建强大的统一模型方面仍面临诸多挑战:技术路线不统一、关键设计缺乏共识、训练策略与数据管理复杂等。
来自南京大学、中科院自动化所、北京大学的研究团队联手,参考超过 750 篇论文,推出长达 83 页的《统一多模态理解与生成模型综述:进展与挑战》。

论文标题:
A Survey of Unified Multimodal Understanding and Generation: Advances and Challenges
论文地址:
https://www.techrxiv.org/doi/pdf/10.36227/techrxiv.176289261.16802577
GitHub 项目地址:
https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Unified/
面对当前领域缺乏统一技术路线的现状,该综述通过对海量文献的梳理分析,构建了一个清晰的分类体系和全景式技术视图(如图 1)。

▲ 图1. 从编码、解码、建模、训练、应用、评估六大维度对代表性工作进行分类和时间线排列,直观展示了整个技术栈的演进脉络和新兴趋势。














为什么要统一“理解”与“生成”?
物理学家理查德·费曼曾言:“What I cannot create, I do not understand”。这句话揭示的理解与创造之间不可分割的协同关系,正是统一多模态模型的深刻动机。
1. 理解与生成的相辅相成
深刻的理解是高质量生成的基础:模型如果不能准确理解“晶莹剔透的玻璃棋子表面反射出燃烧的森林”,就无法生成一幅忠实而富有艺术感的图像。
生成能力是复杂推理的必要组件:无论是解决几何问题时绘制辅助线,还是通过“生成图像来思考”,生成能力能通过反馈循环深化模型的认知与推理。
2. 应对真实世界的高难度任务
单一功能的模型难以胜任诸如“根据剧本生成一部短片”这样的复杂任务。这要求模型能同时理解叙事结构、视觉语义和时间动态,并迭代地生成连贯的场景。统一模型为解决这类高难度、跨领域的现实问题提供可能。

▲ 图2. 从专有模型(Specific)阶段(理解和生成模型各自为战),到功能组合(Combine)阶段(能力集成,实现更复杂的任务),再到涌现(Emergent)阶段(未来愿景,实现复杂的交错式推理),展示了理解与生成统一模型的演化路径。














建模策略的系统性分类
该综述根据“理解”与“生成”模块的耦合程度,将现有 UFM 架构分为三大范式,为模型设计提供了清晰的框架:
1. 外部服务集成建模

▲ 图3. 外部服务集成建模示意图
如图 3 所示,外部服务集成建模将大语言模型作为功能核心,通过调用外部 API(如文生图模型)来完成任务。
工作原理:将大语言模型置于系统的中心位置,作为"指挥官"角色。当接收到涉及多模态信息的用户指令时,LLM 会分析任务意图、制定执行计划,并通过标准化的自然语言接口调用外部专家模型(如图像识别、语音合成、图像生成等 API)来完成具体任务,最后整合所有结果并生成最终输出。
代表工作:Visual ChatGPT 通过 Prompt Manager 调用多个视觉模型;HuggingGPT 动态整合 HuggingFace 社区模型;AudioGPT 扩展至音频领域;SwitchGPT 通过轻量级指令微调增强模态转换能力。
优劣分析:实现简单、资源开销低、无需大规模训练,模块化设计便于灵活替换和扩展,适合快速原型开发。
但是多次外部调用可能降低整体效率并累积误差,而且依赖外部模型的性能和接口稳定性,定制化研发受限,主要是早期用来实现基本功能的权宜之计,在后续的发展中逐渐淡化。
2. 模块化联合建模

▲ 图4. 模块化联合建模示意图
如图 4 所示,模块化联合建模通过文本提示或中间表征,将独立的理解模块和生成模块进行“软连接”。
工作原理:大语言模型(LLM)作为核心"理解引擎",负责处理多模态输入并生成中间信号。当需要生成图像、视频等非文本内容时,LLM通过两种方式驱动独立的生成模块(通常是预训练的扩散模型):
一是生成自然语言提示词作为指令,二是输出连续/离散的中间表征作为条件。生成模块接收这些信号后,完成最终的多模态内容合成。
代表工作:
提示词媒介(Prompt-Mediated):Divter、TIGER 通过指令微调让 LLM 生成描述性文本来驱动外部生成器;Mini-Gemini 采用双视觉编码器增强高分辨率输入处理;ModaVerse 扩展至音视频模态;LLMBind 和 Spider 结合自然语言与语义嵌入实现多模态混合生成。
表征媒介(Representation-Mediated):GILL 首次通过特征映射将 LLM 语言空间与图像生成模型对齐;Emu 系列采用统一自回归目标处理交错文本-图像序列;SEED/LaVIT 设计专用视觉分词器将图像转为离散词元;DreamLLM 引入 Dream Queries 作为轻量接口聚合生成条件;NExT-GPT/AnyGPT 通过模态适配器实现任意模态间的生成转换。
优劣分析:模块化设计灵活、易于集成最先进的专用生成模型(如Stable Diffusion)、训练成本相对较低。提示词中介具有高可解释性和交互性;表征中介则在信息保真度和生成控制精度上表现更优,能传递更丰富的语义细节。
但是提示词中介受限于自然语言的表达能力,难以精确传递细粒度结构信息(如空间布局、动作序列),在高精度生成任务中可能力不从心。
表征中介虽然生成质量更高,但需要额外的特征空间对齐机制,增加了工程复杂度和计算开销;且其生成能力仍受限于外部模块的性能上限,难以通过端到端优化实现深度融合。
因此,这两种方式本质上都是"权衡性方案",为实现理解与生成的深度统一,需要更紧密耦合的端到端架构。
3. 端到端统一建模
在单一模型架构内实现对多模态输入、输出的统一处理,是当前最主流和最具挑战性的方向,如图 5 所示,该综述进一步将其细分为自回归、扩散、混合等多种技术路线。

▲ 图5. 端到端建模技术是推动 UFMs 发展的主力之一。从建模的方法不同,主要可以划分为自回归、扩散和混合建模。
(1)自回归建模
核心思想:将不同模态的输入编码为词元序列,通过自回归机制逐步生成输出。模型采用仅解码器架构,结合因果掩码策略,确保每个词元的生成仅依赖于先前生成的内容。
代表工作:
离散输入:Emu3 通过统一分词实现文本、图像、视频的联合建模,仅依靠下一词元预测即可完成多种任务;LWM 利用 RingAttention 扩展至 1M 词元的超长上下文;Liquid 验证了模型规模扩大后,多模态训练与纯文本训练的性能差距逐渐缩小。
混合输入:Janus 和 Janus-Pro 采用双编码器设计,分别提取高层语义特征(用于理解)和低层视觉细节(用于生成),缓解单一编码器带来的任务冲突。
因果掩码建模:CM3 首创"因果掩码建模",将掩码部分移至序列末尾,引入双向上下文信息;CM3Leon 通过检索增强和两阶段训练策略进一步提升性能。
分词器创新:VILA-U 将重建损失与对比损失整合到编码器训练中,实现语义理解与图像重建的平衡;TokLIP 提出从离散到连续的策略,解耦理解与生成的训练目标;DDT-LLaMA 通过扩散时间步分词器学习递归视觉词元,弥合了扩散生成与 LLM 的鸿沟。
早期融合:Chameleon 采用早期融合策略,将文本与非文本模态从一开始就投影到共享表征空间,引入查询-键归一化等技术提升训练稳定性;MoMa 通过模态感知 MoE 架构提升计算效率。
下一尺度预测:VARGPT 整合下一词元预测(理解)与下一尺度预测(生成),探索统一自回归生成的新范式。
扩散/流生成头:MMAR、LatentLM、UniFluid 等引入轻量级扩散头或流匹配头,避免矢量量化的信息损失,实现高质量生成的同时保持理解能力。
优劣分析:自回归建模架构简洁,与主流 LLM 天然对齐,端到端优化便于知识迁移。但其面临训练成本高、图像保真度受限于词元重建、误差累积、推理速度慢等挑战。
(2)扩散建模
核心思想:扩散模型凭借卓越的生成质量和多样性,逐步扩展至多模态统一建模领域。根据原理差异,可分为连续扩散、离散扩散和矫正流 (rectified flow) 三类。
代表工作:
连续扩散:Versatile Diffusion 通过多流扩散机制支持双向文本-图像生成;UniDiffuser 统一建模边缘、条件和联合分布;CoDi 实现任意模态间生成,通过跨注意力模块将特征投影到共享潜在空间;C3Net 改进潜在空间线性插值,提升生成质量。
离散扩散:UniD3 首次将离散扩散引入统一建模,通过互注意力模块增强文本-图像融合;D-DiT 采用双分支架构,结合图像连续扩散与文本离散扩散;UniDisc 构建全离散扩散统一结构,在生成与判别任务上超越自回归方法。
矫正流:OmniFlow 基于矫正流框架扩展至多模态联合建模,通过模块化设计支持任意模态间生成,每个流可独立预训练或从现有专家模型初始化。
优劣分析:扩散建模生成质量高、细节丰富,但推理速度慢、多模态理解能力相对较弱。随着扩散语言模型(如 LLaDA)的发展,该范式在 UFM 领域的潜力值得期待。
(3)自回归-扩散混合建模 (Autoregressive-Diffusion Hybrid)
核心思想:结合自回归与扩散两大范式的优势,在统一架构内同时学习语言建模与扩散建模,以同时处理离散(文本)与连续(图像、音频)模态。
代表工作:
连续扩散:Transfusion 采用单一 Transformer 架构,通过文本的下一词元预测损失与图像的扩散损失实现统一训练,双向注意力机制显著优于因果注意力;MonoFormer 验证了用预训练 LLM 初始化可提升训练效率。
离散扩散:Show-o 结合下一词元预测与掩码词元预测,通过 Omni-Attention 实现图像词元间的双向交互与文本词元的单向建模;DoraCycle 提出双模态循环机制实现无配对数据的领域自适应;UniCTokens 引入概念词元增强语义理解与生成的互补性。
矫正流:JanusFlow 基于 Janus 的解耦编码器设计,通过轻量级编码-解码器无缝整合矫正流;BAGEL 和 Mogao 通过高质量交错数据和多条件生成范式,增强长上下文视觉推理能力。
架构优化:LMFusion、BAGEL、Mogao 引入模态感知 MoE 架构,采用模态特定的 QKV 投影和 FFN,缓解任务干扰;X-Fusion 通过模块化设计将视觉专家注入冻结 LLM,无需大规模重训练即可支持新模态。
优劣分析:混合建模充分发挥自回归与扩散各自优势,生成质量显著优于纯自回归方法,同时避免了模块化联合建模的信息传递瓶颈。但噪声注入可能损害理解性能,参数共享带来训练冲突,计算复杂度较高。
(4)其他类型
除主流解码器架构外,部分工作探索了编码器-解码器和状态空间模型等替代架构。
代表工作:
编码器-解码器:OFA 通过统一词汇表和指令学习范式实现任务与模态无关的建模;Unified-IO 系列将所有输入输出转换为离散词元序列,扩展至深度估计、音频和动作等模态。
状态空间模型:OmniMamba 基于 Mamba-2 架构,避免 Transformer 的二次计算复杂度,通过解耦视觉表征和任务特定 LoRA 模块,在仅 200 万图像-文本对上实现竞争性能。
图结构:GraphGPT-o 将多模态输入表示为多模态属性图 (MMAG),通过 PageRank 控制图复杂度,捕捉跨模态实体间的复杂关系。
这些替代方案为端到端统一建模提供了多样化的探索路径,是对主流范式的重要补充。














编码策略总结:如何让模型“看懂”世界

▲ 图6. 模型编码策略。主要可以分为连续、离散和混合三种类型。
编码阶段的核心任务是:将图像、视频、音频等多种模态的原始数据,转化为大语言模型能够理解和处理的统一内部表征。这一步是实现多模态理解与生成的基础。
如图 6 所示,该综述将编码策略根据表征形式的不同,系统性地分为三大主流范式:
1. 连续表征
核心思想:将图像、视频、音频等多模态输入编码为连续的、实值的向量序列,保留丰富的语义信息,实现与大语言模型的无缝对齐。这种表征形式特别适合需要深度语义理解的任务(如视觉问答、跨模态检索、复杂推理)。
代表工作:
基于 VAE 的范式:利用变分自编码器将图像压缩到连续潜在空间,避免离散量化带来的信息损失。TransFusion 在统一 Transformer 架构中同时训练文本下一词元预测和图像 VAE 潜在扩散;LatentLM 采用 σ-VAE 生成连续潜在向量,显著减少推理步骤。
基于 CLIP ViT 的范式:直接使用 CLIP 及其变体(如 EVA-CLIP、SigLIP)作为视觉编码器,通过预训练或可训练的 ViT 提取高维连续 patch 嵌入,再经可学习的线性层映射到 LLM 嵌入空间。Emu2 采用 EVA-02-CLIP-E-plus 初始化视觉编码器;UniFluid 集成 SigLIP 生成连续视觉词元;MetaMorph 通过 SigLIP 编码器实现视觉理解与生成的统一。
CLIP + Q-Former 范式:在 BLIP-2 引入的 Q-Former 基础上,通过可学习的查询嵌入与冻结视觉编码器进行跨注意力交互,高效提取固定数量的紧凑视觉表征。SEED-LLaMA 采用此架构实现视觉信息的语义对齐与压缩。
视频连续编码:Video Swin Transformer 通过 3D 移位窗口注意力捕获局部时空依赖;ViViT 将视频转换为时空词元序列,通过 Transformer 编码器进行全局建模;MuMu-LLaMA 通过 Video Understanding Adapter 将视频特征映射到 LLM 嵌入空间。
音频连续编码:Audio Spectrogram Transformer (AST) 将音频转换为 Mel 谱图并通过 Transformer 编码器提取特征;M2-Omni 采用 SAN-M 架构,整合 DFSMN 模块增强短程时间依赖建模;MuMu-LLaMA 利用预训练模型 MERT 实现音乐理解。
优劣分析:连续表征最大限度地保留了原始信息的丰富细节,CLIP ViT 范式受益于大规模对比学习预训练,语义对齐能力强;Q-Former 作为高效适配器,显著降低特征冗余;VAE 范式擅长保留全局结构与低频信息。
然而,VAE 语义抽象能力较弱,不适合高层理解任务;CLIP ViT 在细粒度细节和空间关系捕获上表现不足,且无法直接支持图像重建;Q-Former 性能依赖底层视觉编码器质量。这些权衡凸显了在连续编码中平衡语义丰富性、细节保真度与生成灵活性的核心挑战。
2. 离散表征
核心思想:通过矢量量化技术,将连续的视觉特征映射为离散的、类似单词的"视觉词元"(Visual Tokens)序列。这种形式天然与大语言模型的文本处理范式兼容,使得模型可以像处理语言一样处理图像。
代表工作:
VQ-VAE / VQ-GAN:这是实现离散化的基础工具。编码器将图像块转换为潜在向量,然后通过查找一个可学习的"码本"(codebook)替换为最接近的离散索引(即视觉词元)。VQ-GAN 通过引入对抗性训练,显著提升重建图像的视觉真实感;Unified-IO 采用 VQ-GAN 作为通用视觉分词器,将密集视觉结构(图像、分割掩码、深度图)离散化为词元序列。
多级量化技术 (RQ-VAE, MoVQ):为了在离散化过程中保留更多细节,研究者们提出了多阶段(Residual VQ)或多通道(Multi-channel VQ)的量化策略,以更精细地表示图像。RQ-VAE 通过级联多个量化器,每个捕获前序量化器未编码的残差信息,实现更细粒度的特征表示;VILA-U 即采用此策略;MoVQ 通过多通道量化并行将图像块映射到多个码本索引,在不增加单个码本大小的情况下提升重建质量;Emu3 利用 MoVQ 将图像和视频离散化为多通道词元,实现高保真生成。
视频离散编码:Emu3 基于 MoVQGAN 逐帧量化时空特征为离散视觉词元;MIO 采用动态帧采样策略,利用 SEED-Tokenizer 离散化每一帧;LWM 使用 VQ-GAN 逐帧编码为离散词元并沿时间维度拼接。
音频离散编码:C3LLM 和 AnyGPT 采用 EnCodec 进行分层离散量化,将音频信号编码为多层码本索引;MIO 使用 SpeechTokenizer 分层离散化语音信号,将其整合为 LLM 的"语音词汇表"。
优劣分析:离散表征可以和文本词元的建模可以很好的兼容,但是它面临一个根本性的权衡:为"生成"任务优化的词元需要保留像素级细节,而为"理解"任务优化的词元则需要高度的语义抽象。如何平衡两者是该领域的研究重点。
码本设计和量化策略可能限制对多样数据分布的适应性,多级/多通道量化虽提升细节保留但增加了计算复杂度和冗余风险。
3. 混合表征
核心思想:混合表征策略旨在融合连续编码与离散编码的互补优势——既保留连续特征的语义丰富性以支持深度理解,又保持离散词元的像素级细节以实现高保真生成。
当前主流方法可分为两大架构:级联编码(Cascade Encoding)和双分支编码(Dual-Branch Hybrid Encoding)。
代表工作:
级联编码:SEED 通过 Causal Q-Former 将连续特征重塑为因果语义嵌入后再量化;VILA-U 采用残差量化直接转换连续特征,但面临对比学习与重建损失的优化冲突;UniTok 通过多码本量化 (MCQ) 指数级扩大离散空间容量,实现联合优化;Tar 使用文本对齐码本将语义信息与视觉细节融合;TokLIP 采用"离散-连续"逆向路径,先量化再投影至 CLIP 空间。
双分支编码:
-
融合统一表征:TokenFlow 设计双码本共享索引机制;MUSE-VL 在量化前融合语义与像素特征;UniToken 直接拼接 SigLIP 连续特征与离散词元嵌入;SemHiTok 提出分层码本编码,但词汇规模呈二次增长。
-
完全解耦路径:Janus 采用独立编码器(SigLIP ViT 用于理解,VQGAN 用于生成)彻底分离任务;JanusFlow 和 BAGEL 均使用 SigLIP+VAE 双编码器,但 BAGEL 通过 Mixture-of-Tokens 机制增强特征交互;Mogao 引入 Deep-Fusion 机制在 LLM 内部融合双流特征;ILLUME+ 的 DualViTok 将语义与像素词元配对拼接,形成综合表征。
优劣分析:混合表征有效平衡了语义理解与细节生成的需求。级联策略实现简洁但可能引入额外转换损失;双分支融合策略增强表征丰富性,但需权衡融合时机与计算开销;完全解耦路径虽提供任务特定优化灵活性,但在需要同时理解与生成的交互任务中可能因信息隔离导致性能受限。
核心挑战在于如何在统一框架内同时优化语义对齐、像素保真度与计算效率。














解码策略总结:如何让模型“画出”所想

▲ 图7. 解码策略。和编码策略类似的可以分为连续、离散和混合。
解码阶段的任务与编码相反,它负责将 LLM 生成的内部表征,转换回人类可感知的多模态数据。
这一步决定了模型生成能力的上限和质量,如图 7 所示,该综述根据所处理的表征类型,将解码策略分为三大类:
1. 连续表征的解码
核心思想:当 LLM 生成连续向量表征时,解码器通常借助扩散模型的强大能力来完成最终的图像、视频或音频合成。根据扩散模型与 UFM 主体的集成方式,可分为外部生成和内部生成两种模式。
(1)外部生成 (External Generation)
工作原理:UFM 的骨干网络生成连续的条件向量,通过额外的连接器对齐后,作为外部、预训练扩散模型(如 Stable Diffusion 系列、FLUX 等)的输入条件来指导内容生成。这是一种模块化的解耦设计。
代表工作:
文本空间对齐:GILL、VL-GPT 通过训练连接器将输出对齐到解码器的文本编码器表征空间;NExT-GPT 引入文本损失加速对齐;DreamLLM 采用模型寻优策略在文本条件空间中学习。
图像空间对齐:Emu2、MetaMorph、SEED-X 等先将解码器与冻结视觉编码器(如 EVA-CLIP、SigLIP)的图像特征对齐,后续通过 MSE 损失优化 LLM 与视觉编码器特征的匹配;BLIP-3o 采用流匹配目标增强特征预测的随机性。
动态对齐:UniWorld-v1、MetaQueries 等端到端联合训练 LLM 与解码器,通过扩散损失直接优化,实现动态对齐以提升生成质量。
视觉先验注入:SEED-X、OmniGen-2在 潜在空间或条件空间注入条件图像的 VAE 特征或语义特征,增强生成一致性;UniWorld-v1 强调语义特征优于低频 VAE 特征,增强模型对于特征的理解。
多模态扩展:Emu2、X-VILA 采用 3D U-Net 或开源视频扩散模型(如 VideoCrafter2)实现视频生成;NExT-GPT、CoDi-2 利用 AudioLDM 系列模型实现音频合成。
优劣分析:外部生成受益于成熟的预训练扩散模型,生成质量高且易于集成最新技术(如 CFG)。但连接器会引入信息瓶颈,难以精确控制细粒度视觉细节;依赖多次迭代的扩散过程导致推理速度较慢;需额外训练连接器或微调解码器,增加参数量和计算成本。
(2)内部生成 (Internal Generation)
工作原理:将 LLM 生成的潜在表征直接注入扩散模型的解码器内部,使表征生成与去噪过程在统一架构内同步进行。
推理时仅需缓存清洁图像的键值对,CFG 可通过掩码前缀条件词元实现。根据去噪目标的不同,可分为潜在空间去噪和词元级去噪。
代表工作:
潜在空间去噪:Transfusion、LMFusion 直接对所有视觉词元的潜在空间特征去噪或引入 U-Net 上采样以提高分辨率;JanusFlow、BAGEL、Mogao 采用流匹配替代扩散目标,提升训练和推理效率;BAGEL 通过教师强制在单次训练中完成完整去噪,避免噪声干扰;Mogao 提出多模态分类器自由引导(MCFG)解耦文本与图像条件权重。
词元级去噪:Harmon、MMAR 结合掩码自回归重建(MAR、FLUID)与 LLM 框架,通过额外的 MLP 扩散模块迭代去噪预测词元;LatentLM、UniFluid 采用因果注意力逐词元自回归生成,并训练 \sigma-VAE 注入高斯噪声以稳定生成过程。
多模态扩展:BAGEL 随机分组视频帧并应用双向注意力实现同步去噪,结合扩散机制增强长视频生成;Show-o2 利用 3D 因果 VAE 统一处理视频与图像;CoDi、OmniFlow 采用音频 VAE 解码器和 HiFi-GAN 声码器实现音频合成。
优劣分析:内部生成避免了外部对齐的信息瓶颈,支持双向注意力建模丰富视觉细节,生成质量上限更高。但多步去噪必须通过 LLM,训练和推理效率较低;潜在空间去噪存在训练-推理域差距(噪声-干净特征不匹配),可能损害理解能力;词元级去噪虽缓解域差距但需逐词元顺序去噪,无法并行化;生成分辨率和数量受 LLM 上下文长度限制。
2. 离散表征的解码
核心思想:离散解码器通常基于 VQ-VAE 的拓展架构进行编码,而后将 LLM 生成的离散词元索引通过码本映射回连续特征空间,再经解码器重建为目标模态数据。
离散词元通常作为扩展词汇表附加到文本词汇之后,并引入模态分隔符(如<image>, <audio>)和任务控制符(如<generation>, <editing>)。
代表工作:
离散自回归:MLLM 通过下一词元预测逐步生成离散视觉词元序列。CM3、Unified-IO 系列采用 VQGAN 解码器;Chameleon 和 Emu3 在大规模数据上重训练分词器以提升性能;VARGPT 采用 VAR 解码器实现下一尺度预测,加速高分辨率生成。
为提升效率,Synergen-VL 提出 Vision Token Folding/Unfolding 机制分层重建词元;为增强语义保真度,VILA-U、UniToK 通过对比学习隐式对齐离散词元与 CLIP 语义,TokenFlow、SemHiTok 采用双分支架构显式解耦语义与像素信息。
离散去噪:Show-o 及其后续工作采用 MAGVIT2 风格因果 CNN 分词器,通过掩码词元预测目标实现并行去噪,推理时从全掩码序列迭代预测高置信度词元;UniDisc、MMaDA 将此范式扩展至文本模态实现全模态离散扩散;基于 Show-o 框架,UniGen 引入多模态自我批评实现测试时扩展,UniCMs 通过一致性蒸馏加速推理,UniCTokens 提出统一概念词元支持个性化生成。
视频离散解码:VILA-U、LWM 沿时间轴逐帧生成;Emu3 在 MoVQGAN 中引入时间残差 3D 卷积层,实现时空联合压缩以支持长视频高分辨率生成。
音频离散解码:Unified-IO 2 基于 VIT-VQGAN 训练音频分词器;AnyGPT、MIO 直接采用 SpeechTokenizer;C3LLM 使用 EnCodec 并采用两阶段解码策略(粗粒度语言模型预测+细粒度非自回归精炼)提升生成精细程度。
优劣分析:离散自回归与文本建模天然对齐、训练统一,但逐词元生成效率低(通常超过 1k 词元),且自回归建模不符合图像内在结构;离散去噪通过并行预测实现数量级加速,但训练时的掩码词元与推理时的完整词元上下文不匹配,而且会引入域差距并可能损害理解能力。
两种范式均受 LLM 上下文长度限制,难以生成高分辨率图像或长视频,且解码质量依赖 VQ 表征质量,可能继承分词器训练时的数据集偏置。
3. 混合表征的解码
核心思想:混合表征解码将 LLM 生成的离散视觉词元转换为连续特征空间,再由扩散模型完成最终合成。关键在于通过码本映射或可训练的中间适配器弥合离散-连续表征的鸿沟,从而兼顾 LLM 的序列建模能力与扩散模型的生成优势。
代表工作:
文本空间对齐:SEED 及其后续工作(SEED-LLaMA、AnyGPT)训练反向 Q-Former 将离散词元转换为连续特征,作为冻结扩散模型的文本条件;UniCode² 采用 MLP 通过对比学习直接对齐文本空间。
图像空间对齐:LaVIT 通过 Q-Former 重建 ViT 风格语义特征图后微调扩散模型;ILLUME+ 引入双分支解码器恢复语义与像素级特征并注入扩散噪声初始化;DDT 按扩散时间步递进输入量化特征,将空间分布的离散词元转换为递归词元流。
视频混合解码:Video-LaViT 提出运动感知视频分解机制,将视频表征因式分解为关键帧词元和时间运动向量,减少 90% 词元数量,采用流式解码策略(图像扩散生成关键帧+视频扩散生成完整片段)。
音频混合解码:LM-MSN 采用基于 DiT 的条件流匹配模型重建超低比特率表征;M2-Omni 和 Ming-Omni 利用预训练 CosyVoice 流匹配模型,将语义离散词元输入 DiT 模块生成 Mel 谱图,并整合说话人嵌入以保留音色。
优劣分析:混合解码在保留 LLM 离散建模优势的同时利用扩散模型的生成能力,仅需通过下一词元预测训练 LLM,推理时激活解码器,降低训练负担。但独立的解码器训练继承了外部生成的信息瓶颈问题,限制细粒度细节控制;且无法与 LLM 联合优化,制约模型协同适应与端到端扩展能力。

模型训练的总体概括
1. 预训练:从零到一,构建统一多模态统一基础模型
预训练是构建统一多模态基础模型(UFM)的奠基阶段。其核心目标是:构建一个具备跨模态理解与生成双重能力的单一、统一的基础模型。
这不仅仅是让模型学会看图说话,更是要赋予它根据指令进行创作的原始能力。

▲ 图8. 统一多模态基础模型预训练过程
如图 8 所示,该综述将复杂的预训练过程解构为三个核心模块的构建与优化,以及三大核心策略的实施:
(1)核心模块的构建
编码器-解码器模块:
-
目标:负责将多模态数据与模型的内部表征进行双向转换。
-
构建方式:通常采用耦合训练,即编码器和解码器作为一个整体进行联合优化,确保解码器能精确地“读懂”编码器产生的离散“视觉词元”。这个模块通常在大型数据集上预先训练好,然后作为“分词器”在后续阶段保持冻结。
对齐模块:
-
目标:充当“翻译官”或“桥接模块”,将编码器输出的特征映射到大语言模型骨干网络能够理解的语义空间中。
-
构建方式:通过训练轻量级的映射模块来实现,主流方法包括简单的线性投影层或更复杂的Q-Former架构。
骨干网络模块:
-
目标:作为模型的核心,负责处理统一的、对齐后的多模态序列,进行深层次的语义理解和内容生成。
-
构建方式:通常基于强大的预训练语言模型进行初始化,以继承其强大的序列建模和推理能力。
2. 微调:从通用到专家,实现能力的精进与对齐
预训练为模型理解多模态信息奠定基础,而微调的目标则是在此基础上进行进一步优化,使其在特定任务上表现更优,并且其行为方式更符合人类的期望和偏好。

▲ 图9. 模型微调任务示例
该综述将微调策略清晰地划分为两大技术路径:
(1)任务监督微调 (Task-supervised Fine-tuning)
这种微调方式使用带有明确标注的指令数据集来优化模型,旨在提升模型在特定任务或领域的性能。
通用任务微调 (General-task Fine-tuning):
-
目标:全面提升模型的指令遵循能力和泛化能力。
-
方法:在一个包含多种任务类型(如问答、描述、生成、编辑等)的混合指令数据集上进行统一微调。这种通用指令数据的训练能让模型学会处理更多样化的指令。
多任务微调 (Multi-task Fine-tuning):
-
目标:让模型在特定领域(如医疗影像分析)或特定子任务(如个性化图像编辑)上达到“专家级”水平。
-
方法:使用高度针对性的领域数据集进行训练。一个重要的策略是解耦理解与生成任务的优化,例如为不同任务设计独立的损失函数或训练阶段,以避免任务间的冲突,实现性能最大化。
(2)对齐微调 (Alignment Fine-tuning)
这是更高级的微调阶段,其核心目标是:将模型的输出与人类的偏好、价值观进行对齐。它追求的不再仅仅是“正确”,更是“有用”、“无害”和“令人满意”。
目标:引入人类反馈信号作为优化的核心驱动力,弥合模型预测与人类期望之间的差距。
主流方法:
直接偏好优化 (Direct Preference Optimization, DPO):这是目前最主流的对齐方法。通过构建“(提示,被偏好的回答,被拒绝的回答)”三元组形式的偏好数据集,直接在策略空间中进行优化,训练模型生成更受欢迎的输出,这种策略在 Emu3、VARGPT-v1.1 等模型中用来提升模型性能。
群体相对策略优化 (Group Relative Policy Optimization, GRPO):作为一种新兴的强化学习策略,它在一些较新的方法中(比如 Emu3.5、UniPic-2.0 等)被用于对齐微调,为模型优化提供了新的思路。
对齐微调对于抑制模型幻觉 (Hallucination)、提升生成内容的安全性和可靠性、以及在交互式应用中改善用户体验至关重要。
总而言之,预训练为 UFM 奠定了统一多模态能力的“地基”,而微调则在此之上进行“精装修”,使其既能胜任专业任务。这两个阶段共同构成了训练一个顶尖 UFM 的完整生命周期。

基准、应用与未来方向 (Benchmarks, Applications & Future Work)
1. 详尽的评估基准总结

▲ 图10. 评估基准按模态和任务分类
该综述汇总了用于评估模型理解、生成和混合模态能力的现有基准,为研究者提供了"度量衡"。
如图 10 所示,评估基准按输入模态(图像、视频、音频、混合)和任务类型(理解、生成、统一)进行系统分类。
(1)理解能力评估
图像理解:早期基准如 VQA v2.0 和 VizWiz 聚焦于基础感知和鲁棒性。随后,MME、MMBench、SEED-Bench 系列通过大规模、多维度评估推动了综合能力测试。
专项基准涵盖世界知识(MMMU、ScienceQA)、数学推理(MathVista、MATH-V)、OCR 与文档理解(OCRBench、ChartQA)、幻觉检测(POPE、VALOR-EVAL)以及安全性评估(MOSSBench、VLBiasBench)。
视频理解:Video-MME 和 MMBench-Video 评估多模态输入的时空推理能力;TempCompass 和 MotionBench 聚焦细粒度时序感知;ActivityNet-QA、LVBench 和 HLV-1K针对长视频理解;Video-MMLU 和 STI-Bench 测试领域知识与空间智能;FG-Bench 和 MME-VideoOCR 评估视频 OCR 能力;VIDHAL 和 VideoHallucer 量化幻觉问题。
音频理解:MMAU 和 AIR-Bench 评估跨语音、环境音和音乐的综合能力;MuChoMusic 专注音乐理解;VoiceBench 测试语音助手的交互性能;Audiopedia 开创知识密集型音频问答。
混合模态理解:ACVUBench 和 MAVERIX 评估音视频协同推理,测试模型在多模态融合场景中的整合能力。
(2)生成能力评估
图像生成:T2I-CompBench 系列评估组合生成能力;Pick-a-Pic 引入基于人类偏好的 PickScore;TIFA 和 WISE 测试文本对齐与世界知识;FAIntbench 和 T2ISafety 关注公平性与安全性;HEIM 和 TrustGen 提供综合性平台。图像编辑基准如 ULTRAEDIT、Emu Edit 和 PIE-Bench 评估编辑质量、指令遵循与保真度;RISEBench 和 AURORA-BENCH 聚焦推理导向的编辑任务。
视频生成:EvalCrafter 和 VIDEOFEEDBACK 标准化 T2V 评估并引入人类反馈驱动的指标;PhyGenBench 和 Morpheus 测试物理真实性;T2VSafetyBench 评估安全性;VE-Bench 和 EditBoard 针对文本引导的视频编辑;AIGCBench 和 I2V-Bench 评估 I2V 生成的控制一致性与动态合理性。
音频生成:EmphAssess 和 TTSDS 评估 TTS 和 S2S 的清晰度、自然度与语义准确性;S2S-Arena 通过竞技场式对比评估指令遵循与副语言特征。
混合生成:ICE-Bench 和 ImagenHub 统一评估多任务图像生成与编辑;TC-Bench 和 VideoGen-Eval 评估 T2V 和 I2V 的时序组合能力;GenAI-Bench 通过专业提示识别组合推理弱点。
(3)统一能力评估
现有基准多独立评估理解或生成,缺乏对"相互促进"的直接度量:SEED-Bench-2 通过客观选择题评估文本-图像生成;CoMM 和 InterleavedEval 采用传统指标与大模型评分结合的方式;ISG-BENCH 利用场景图结构分析细粒度关系;MME-Unify 引入"统一任务"测试集成推理与生成;UniEval 提出自评估范式;RealUnify 评估双向协同能力,揭示当前架构尚未实现真正的统一增益。
这些基准在规模、粒度、数据多样性及评估方式上各有侧重,共同推动混合模态生成评估的发展。
2. 前沿应用探索
该综述系统梳理了 UFM 在机器人、自动驾驶、世界模型、医疗和视觉任务五大领域的前沿应用(如图 11),展现了"统一"范式从多模态学习向垂直领域的深度扩展。

▲ 图11. UFM在下游应用中的典型输出模态示意图
(1)机器人
视觉-语言-动作 (VLA) 模型通过统一理解与动作生成实现具身智能。LCB、DexVLA 等构建推理数据集增强动作可解释性。
SEER、DreamVLA 引入辅助扩散头预测目标图像或深度图,提供密集视觉监督以改善泛化。
GR-2、UVA 通过网络规模视频预训练学习世界动态与视频-动作联合表征,解耦策略学习,支持动力学建模与视频生成等多功能。
(2)自动驾驶
端到端驾驶系统将场景生成与运动规划深度融合。DrivingGPT 采用离散自回归联合预测未来帧与运动词元。
Epona 通过解耦架构实现高分辨率长时序预测;Hermes 跨传感器预测 LiDAR 点云增强 3D 推理。
OccLlama、Occ-LLM 利用占据网络的体素表征预测未来占据流,实现细粒度语义理解与动态环境建模。
(3)世界模型
物理世界模型从 2D 像素空间跃升至 4D 时空一致性建模。
Aether 在合成 4D 数据上联合预测视频、深度与相机位姿,嵌入几何先验;TesserAct 扩展至法线图预测,模拟真实 3D 交互(如抓取、开门);GEM、DiST-4D 针对驾驶场景构建多视角一致的 4D 未来,支持对象操作与全景感知。
(4)医疗
统一医疗模型通过轻量化适配实现多任务泛化。
LLM-CXR 仅需指令微调即可完成 CXR-to-report、report-to-CXR 及 VQA;MedXChat 整合 Stable Diffusion 增强生成;HealthGPT 跨模态扩展至 OCT、显微镜图像与 CT-to-MRI 转换。
但该领域面临数据隐私限制与安全性高要求,幻觉与生成不一致问题亟待突破。
(5)视觉任务
统一视觉模型通过文本与视觉提示整合感知与生成。
LLMBind、Vitron 集成SAM 等外部解码器处理检测、分割与姿态估计;UniWorld-V1、X-Prompt 直接生成结构化标签图。
Jodi 基于扩散框架联合建模图像与标签域;LLaMA-Mesh 利用 OBJ 格式文本表征 3D 网格;VGGT 统一推理相机参数、点图、深度与 3D 轨迹,实现端到端稠密点云重建。
这些进展表明,UFM 的统一范式正突破传统边界,赋能具身智能、物理仿真与专业领域 AI 的规模化发展。
3. 未来研究方向的深度洞察
论文从建模策略、统一分词器、模型训练和评估基准四个维度,对 UFM 领域的未来发展进行了前瞻性的探讨:
(1)建模策略与架构创新
自回归与扩散的融合:单一框架存在固有局限。未来将更多地探索混合建模策略,如将轻量级扩散头整合到自回归骨干中,以兼顾生成质量和理解能力。
专家混合(MoE)架构的深化:MoE 在提升训练效率和模型可扩展性方面潜力巨大,但如何有效地从 LLM 领域迁移经验、设计更精细的专家路由策略、以及增强模态间的深度交互,仍是亟待突破的方向。
(2)统一分词器的突破
可扩展的统一分词器:设计能够同时服务于高层语义理解和低层像素重建的"完美特征",避免特征冗余,是当前的核心挑战。未来需要在更大规模、更高质量的数据集上训练和验证统一分词器。
高效视频分词器:随着视频理解与生成需求的增长(更长时长、更高分辨率),开发具有更高压缩比和更丰富语义表征的 3D 视频分词器至关重要。
全模态分词器:终极愿景是构建一个单一的、跨文本、图像、音频、视频等所有模态的通用编码-解码器,通过共享码本在统一潜在空间中处理所有数据,以实现模态无关的特征提取和生成。
(3)训练范式的演进
语义交错数据的构建:从简单的模态配对转向深度语义交错的训练数据(如多粒度时间分解、跨模态细粒度对齐),是提升模型复杂推理能力的关键。未来需要发展高精度的可控生成技术来降低数据构建成本。
偏好对齐与强化学习:基于 DPO、GRPO 等强化学习策略的对齐微调将成为核心训练手段。如何设计能够精确平衡"理解"与"生成"双重偏好的奖励函数,是未来研究的重点。
(4)评估基准的完善
真正的统一能力评估:当前基准多独立评估理解或生成,缺乏对"相互促进"的直接度量。未来基准应设计需要生成能力辅助理解的任务(如通过生成辅助图形来解决几何问题),以及需要深度理解才能高质量生成的场景。
混合评估协议:结合 MLLM-as-Judge(评估中间推理过程)与基于规则的客观指标(评估最终输出),以兼顾可解释性和鲁棒性。

结语
通过对 750 余篇参考文献的深度研读,该综述论述了涵盖编码-解码、建模范式、训练策略、评估体系的研究进展,为领域的研究者提供了清晰的技术全景图和可操作的方法论指引。
从技术演进的视角看,统一多模态大模型正经历从模块化解耦向端到端统一的范式转变。
编码侧,连续表征、离散表征与混合表征的技术路线各有所长;解码侧,自回归生成与扩散生成的深度融合逐渐成为主流趋势之一。
训练方面,从大规模预训练到任务监督微调,再到基于人类反馈的对齐优化,构成了完整的模型能力提升链路。
当前该领域仍面临若干关键技术瓶颈:统一分词器的设计尚未突破语义理解与像素重建的固有矛盾;理解与生成任务在联合训练中的目标冲突亟需新的优化范式;评估基准缺乏对模型统一能力的有效度量。这些挑战为后续研究指明了明确方向。
综述或将为多模态基础模型的架构设计、训练优化和应用拓展提供系统性的技术参考,推动该领域向更高水平的统一性、泛化性和实用性发展。
论文标题:
A Survey of Unified Multimodal Understanding and Generation: Advances and Challenges
论文地址:
https://www.techrxiv.org/doi/pdf/10.36227/techrxiv.176289261.16802577
GitHub 项目地址:
https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Unified/
