面壁智能的 MiniCPM-V 4.5 是一款 8B 参数的多模态大模型,其技术报告深入探讨了解决多模态大模型训练和推理效率瓶颈的三大核心技术。首先,文章介绍了统一的 3D-Resampler 架构,通过时空联合压缩实现高达 96 倍的视频视觉 Token 压缩率,显著提升视频理解效率和性能。其次,提出面向文档的统一 OCR 和知识学习范式,通过控制文字可见度扰动,将 OCR 和知识学习融合,摆脱外部解析器依赖,降低数据工程复杂度。最后,文章阐述了可控混合快速/深度思考的多模态强化学习策略,在节省训练开销的同时,平衡了模型的快速响应和深度分析能力。这些创新使 MiniCPM-V 4.5 在 OpenCompass 等评测中超越 GPT-4o-latest 和 Qwen2.5-VL-72B,并在推理速度和资源消耗上展现出显著优势。
src="https://api.eyabc.cn/api/picture/scenery/?k=d3c08cfe&u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2F5LJDib8HPR2rrP8PCWTibecYDwFQ28AoNmTAthvyOIjfiamRZEhuurHCNPyEDibSk2p0dfWkkweUQS2rbTcShLUEkg%2F0%3Fwx_fmt%3Djpeg">
上个月,面壁小钢炮带来了最新的多模态模型 MiniCPM-V 4.5,成为行业首个具备“高刷”视频理解能力的多模态模型。模型一经开源广受社区好评,直接登上 HuggingFace Trending TOP2,截至目前在 HuggingFace、ModelScope 两大平台合计下载量超 22 万。
今天,MiniCPM-V 4.5 技术报告正式出炉。报告从模型结构、训练数据和训练策略三个维度探索了高效多模态大模型的实现路径,以解决多模态大模型的训练和推理的效率瓶颈。提出 统一的 3D-Resampler 架构实现高密度视频压缩、面向文档的统一 OCR 和知识学习范式、可控混合快速/深度思考的多模态强化学习三大技术。基于这些关键技术,MiniCPM-V 4.5 在视频理解、图像理解、OCR、文档解析等多项任务上取得显著突破,不仅以 8B 的参数规模超越 GPT-4o-latest 和 Qwen2.5-VL-72B,更在推理速度上具有显著优势。

➤ 技术报告地址
🔗 https://github.com/OpenBMB/MiniCPM-V/blob/main/docs/MiniCPM_V_4_5_Technical_Report.pdf
➤ 项目地址
🔗
➤ 模型地址
🔗 Hugging Face:
🔗 ModelScope:
简介
随着多模态大模型的迅速发展,其在模型架构、数据工程和训练方法上的高昂成本和效率瓶颈,正成为其广泛应用和技术迭代的核心障碍。尤其在移动设备和边缘计算场景中,如何在保持出色性能的同时实现高效推理,给多模态模型研究和应用提出了更加严峻的挑战。
MiniCPM-V 4.5 通过系统性的技术创新攻克三大效率难题:
-
针对模型架构:为解决处理图像与视频时产生的海量视觉 Token,我们采用了 统一 3D-Resampler 架构,大幅降低了视觉编码的 Token 开销,实现最高 96 倍 的压缩率。在 VideoMME 上,我们以相比 Qwen2.5-VL 7B 仅 46.7% 的显存和 8.7% 的时间开销,获得了 30B 以下参数量模型的最优性能。
-
针对训练数据:为解决多模态文档处理中对不可靠外部解析工具的依赖和 OCR 数据工程设计难题,我们提出了 统一文档 OCR 与知识学习的新范式,使模型能直接从复杂文档图像中学习,显著降低了数据噪声和数据工程复杂度。最终在 OmniDocBench 上取得了通用 MLLM 中的最好表现。
-
针对训练方法:为平衡深度思考与日常即时使用两种需求,我们使用了 混合强化学习策略。该策略在节省 30% 训练开销的同时实现了强大的思考能力,并且推理耗时仅为同规格深度思考模型的 42.9%-68.2%,在快速响应与全面分析间取得了可控平衡。
技术创新

01 高效模型架构:统一的 3D-Resampler 架构实现高密度视频压缩
Takeaways
1. 时间-空间 统一联合压缩可充分挖掘多模态数据的冗余性,实现更高视觉压缩率。
2. 统一的视觉架构可促进感知能力从图像到视频的无缝迁移。
传统多模态模型在处理视频时面临的核心挑战是性能与效率的权衡。为突破这一困境,MiniCPM-V 4.5 引入了创新的 3D-Resampler 架构。它不再将视频视为独立的静态帧序列,而是同时在时空方向上压缩,利用连续帧间的高度冗余信息,实现了革命性的效率提升。
该架构能将 6 个连续的视频帧(448×448 分辨率)高效压缩为仅 64 个视觉 Token,实现了惊人的 96 倍 视觉压缩率,而多数主流模型处理同等数据需消耗 1,536 Token。这一设计让模型在不增加语言模型计算成本的前提下,能够感知和处理更多视频帧,且能获得更好的视频理解能力。

3D-Resampler 在 VideoMME(含有无字幕两种评测方式)上的性能和处理效率对比
更重要的是,3D-Resampler 实现了 图像与视频处理的统一编码,确保了知识和能力的无缝迁移。一个有力的证明是,尽管没有经过专门的视频 OCR 数据训练,模型依然展现出良好的视频 OCR 能力。同时,由于统一的架构设计和参数共享,从 2D 扩展至 3D-Resampler 仅需一个轻量化的 SFT 阶段,极大地降低了训练成本。
02 高效知识学习:面向文档的统一 OCR 和知识学习范式
Takeaways
对文档图像文本进行不同程度的可见性扰动,即可将知识学习、OCR 能力高效地统一到单个学习目标中。
多模态模型在处理文档时,普遍采用两种独立的低效方法。一方面,文档知识学习高度依赖脆弱的外部解析工具,不仅效率低下,解析错误还常常引入噪声,需要大量数据工程进行修复。另一方面,OCR 能力学习虽受益于数据增强,但过度的图像扰动又会导致文字无法辨认,反而诱发模型产生幻觉。
对于以上困难,我们提出一条核心洞察:文档知识获取和文字识别的关键区别,仅在于图像中文字的可见度。
基于此,MiniCPM-V 4.5 使用了一种 统一的 OCR 和知识学习范式:对文档图像中的文字区域施加不同程度的损坏,利用“从损坏图像中重建原文”这一学习目标同时学习两种任务。如下图所示,通过控制损坏程度,我们创造了三种任务:
1. 轻微损坏 (可靠 OCR 训练):文字尚可辨认,模型专注于学习准确、鲁棒的文字识别。
2. 中度损坏 (综合推理):字符变得模糊,模型可以结合框内视觉线索和上下文进行综合推理和重建原文。
3. 高度损坏 (知识学习):文字被完全抹除,模型被强制依赖上下文图表和文字以及模型内部知识来重建原文,从而实现真正的文档级理解

这一方法彻底摆脱了对外部解析器的依赖,杜绝了其引入的噪声和工程负担。同时,它智能地将知识学习和 OCR 目标无缝融合在同一训练批次中,极大地提升了数据利用率和训练效率。我们在轻量训练设置下对该学习范式进行了消融验证,结果说明面向文档的统一 OCR 和知识学习范式有效提升了模型在文档理解、知识推理、文字识别上的能力:

统一 OCR 和知识学习范式有效提升了模型在 MMMU, AI2D, OCRBench 上的性能
03 高效强化学习:可控混合快速/深度思考的多模态强化学习
Takeaways
1. 困难样本是深思考冷启动的关键。
2. 混合思考模式强化学习可产生交叉泛化,显著降低训练开销。
3. 基于概率的奖励信号(PR)可以有效拓宽奖励信号覆盖面,提升强化学习训练收益。
MiniCPM-V 4.5 通过混合强化学习方法,实现了快速思考和深度思考两种模式的平衡优化。快速思考模式面向高频日常使用场景,提供高效的推理体验;深度思考模式则专注于复杂任务的深入分析。
模型通过 少量高难度、高质量 的推理样本进行冷启动,快速掌握深度思考所必需的反思与回溯能力。进入强化学习阶段,两种模式被同时优化,不仅显著增强了深度思考模式的性能,更实现了两种模式间推理能力的 交叉泛化。模型在 节省约 30% 采样开销 的前提下,仍能达到和仅深思考强化学习的模型相当的表现。

不同强化学习策略的 OpenCompass 得分和训练采样开销
同时,我们引入了 RLPR 与 RLAIF-V 两项技术:
-
RLPR 解决了通用域问题的开放式回答(如答案表述相对复杂、含物理单位等)难以获得可靠奖励信号的痛点,从模型生成正确答案的概率中获得奖励信号(probability-based reward, PR)。随着训练步数增加,结合 PR 训练相比常规训练方法的优势会逐渐扩大。

RLPR在训练过程中OpenCompass的性能增长曲线
-
RLAIF-V 有效抑制了模型的幻觉现象,通过逐个检验模型输出答案中事实陈述的可靠度并构建偏好数据用于 DPO,提升了多种多模态理解任务的可靠性。

RLAIF-V 有效提升模型在 ObjHalBench和MMHal-Bench 上的性能
评测结果
01 多模态综合能力评测
MiniCPM-V 4.5 在 OpenCompass 综合评测中取得了 77.0 的平均分。该评测涵盖了 8 个主流多模态基准的综合指标。尽管仅有 8B 参数规模,模型在视觉语言能力上超越了 GPT-4o-latest 等广泛使用的专有模型,以及 Qwen2.5-VL 72B 等强大的开源模型,成为 30B 参数以下性能最佳的开源多模态大模型。

MiniCPM-V 4.5 多模态综合能力评测结果
02 推理开销
MiniCPM-V 4.5 在提供 SOTA 级多模态表现的同时,具有最佳的推理效率和最低的推理开销。在混合思考模式下,MiniCPM-V 4.5 在推理耗时仅为同规格深度思考模型的 42.9%-68.2% 的同时获得了更好的 OpenCompass 分数。同时,得益于高密度视频压缩技术,在覆盖短、中、长三种类型的视频理解评测集 Video-MME 上,MiniCPM-V 4.5 时间开销(未计算模型抽帧时间)仅为同级模型的 1/10。


MiniCPM-V 4.5 推理开销
模型实测结果展示


总结
作为 MiniCPM-V 系列的最新成果,MiniCPM-V 4.5 系统性地从 架构、数据和训练 三大维度为解决多模态大模型的效率瓶颈提供了一条可行路径。模型通过 统一 3D-Resampler 架构,实现了卓越的视频编码效率,在有限的计算预算下处理高帧率长视频;依靠 统一的 OCR 和知识学习范式,其能直接从文档中学习多种能力,摆脱了对脆弱外部解析工具的依赖,降低了数据工程的复杂性;而 混合式强化学习策略,则在提升训练与推理效率的同时,促进了模型在快速与深度思考模式间的平衡与泛化。MiniCPM-V 4.5 不仅在 OpenCompass 评测中取得了超越众多大参数量开源模型和专有模型的 77.0 分优异成绩,证明了其技术路线的有效性。
作为清华大学自然语言处理实验室和面壁智能联合开发的系列模型,MiniCPM-V 和 MiniCPM-o 系列已经获得了广泛的学术和产业认可。系列模型下载量超过 1300 万次,GitHub 星标超过 2 万次,相关技术论文发表在国际著名期刊 Nature Communications 上,谷歌学术引用超过 600 次。系列模型曾连续多天在 HuggingFace Trending、GitHub Trending 和 Papers With Code Trending Research 榜单排名第一,入选 HuggingFace 2024 年度最受欢迎和下载开源模型榜单、中关村论坛年会 10 项重大科技成果、英特尔中国学术成就奖。这些成就充分体现了小钢炮系列在推动多模态人工智能技术发展方面的重要贡献。
本文由 Hugging Face 中文社区内容共建项目提供,稿件由社区成员投稿,经授权发布于 Hugging Face 公众号。文章内容不代表官方立场,文中介绍的产品和服务等均不构成投资建议。了解更多请关注公众号
如果你有与开源 AI、Hugging Face 相关的技术和实践分享内容,以及最新的开源 AI 项目发布,希望通过我们分享给更多 AI 从业者和开发者们,请通过下面的链接投稿与我们取得联系:
