本文介绍了腾讯技术工程团队开发的 Render-of-Thought (RoT) 框架,旨在解决大模型思维链(CoT)推理中长序列生成的延迟与显存瓶颈。RoT 创新性地利用多模态模型(VLM)中冻结的视觉编码器作为“语义锚点”,将冗长的文本推理步骤“渲染”为紧凑的视觉嵌入向量。通过视觉对齐和潜在监督微调两个阶段,RoT 在保持逻辑推理能力的同时,实现了显著的 Token 压缩和推理加速。实验表明,该方法在 GSM8k 和 MATH 等基准测试中优于现有的隐式推理方案,并利用视觉空间特性提升了推理过程的可解释性。
腾讯程序员 2026-01-30 17:08 广东

思维链

作者:ethanntang 、wyattyfwang
引言
随着大模型规模的扩展,思维链(Chain-of-Thought, CoT)已成为处理复杂推理任务的标准范式。但我们在实际应用中发现,CoT 的有效性往往建立在生成大量中间文本的基础上。这种对长序列生成的依赖,不可避免地导致了推理延迟的增加和显存(特别是 KV Cache)的过度消耗。虽然目前业界存在一些针对显式 CoT 的压缩尝试,例如通过启发式算法筛选关键 Token 或利用强化学习缩短推理路径,但这些方法依然受限于离散的文本表征,难以在保留完整推理逻辑的同时,实现计算效率的数量级提升。
为了突破文本生成的限制,研究界开始探索“隐式 CoT”方向,即尝试将推理过程内化为连续的隐状态向量,而非输出具体的文本。虽然 Coconut、CoLaR 等早期工作验证了这一方向的可行性,但我们在复现和研究中发现,这类方法面临着严峻的优化挑战。由于要求模型在没有任何语义约束的情况下,从零开始在潜空间构建推理拓扑,训练过程往往极不稳定,容易出现表征坍缩。此外,现有的隐式方法通常缺乏对中间过程的监督,导致推理过程变得不可解释。
有什么方案既保证推理速度快,又使得过程可分析,还无需昂贵的预训练?
我们提出了一种全新的范式——Render-of-Thought (RoT)。我们的核心思路极具想象力:利用多模态模型(VLM)中冻结的视觉编码器作为“语义锚点”,将文本推理步骤“渲染”为图像的视觉嵌入。 这种方法不仅利用了视觉模态的高信息密度来实现 3-4 倍的 Token 压缩,更重要的是,它通过视觉化让隐式推理过程变得可分析。通过将 LLM 的隐状态与结构化的视觉表征对齐,我们实现了一种无过多训练的高效推理方案。实验证明,RoT 在大幅提升推理速度的同时,依然保持了强大的逻辑推理能力,为推理场景开辟了一条新路径。

-
Github 地址:https://github.com/TencentBAC/RoT
-
Huggingface地址:https://huggingface.co/collections/TencentBAC/rot
显式太慢,隐式黑盒?RoT 走出第三条路
-
显式 CoT (Explicit CoT):让模型把每一步推理都写出来,就像学生做数学题写步骤一样。 生成几百个 Token 的中间步骤不仅费时,还极其消耗显存。
-
隐式 CoT (Implicit CoT):模型直接在内部隐状态中进行推理,不输出具体文本。这种方式就像把思考过程扔进了一个黑箱,缺乏中间过程的监督。
-
Render-of-Thought (RoT):另辟蹊径,把“思考”变成了“作画”。利用视觉信息的高密度特性,将冗长的文本压缩成紧凑的视觉向量。这不仅有迹可循,还大幅提升了推理速度。

拒绝「黑盒」,两步训练实现「移花接木」
RoT 是一种将文本思维链通过渲染(Rendering)和视觉知识蒸馏转化为紧凑视觉表征的新范式。
与以往需要从头学习“推理Token”的隐式方法不同,RoT 直接利用了现有 VLM(如 Qwen-VL, LLaVA)中冻结的视觉编码器。通过将 LLM 的隐状态与渲染文本的视觉嵌入对齐,RoT 无需昂贵的预训练开销。渲染方案将文本推理步骤转化为单行图像,隐空间推理方法通过投影头将 LLM 生成的隐状态与视觉特征对齐。
为了适应自回归思维链的序列化建模,我们摒弃了固定尺寸的图像渲染方案,采用了单行图像渲染。该策略可以根据根据文本长度动态修改所需的图像宽度。此外,单行的渲染方式确保图像的Patch严格按照从左到右的方式提取,自然地将视觉序列与文本顺序对齐。

RoT 的实现过程主要分为两个阶段,旨在逐步将 LLM 的离散推理能力转化为连续的视觉隐空间推理能力。
阶段一:视觉对齐 (Visual Alignment)
这一阶段冻结了 LLM 和视觉编码器,仅训练一个轻量级的“视觉投影头”(Visual Projection Head)。目标是将 LLM 的文本隐状态映射到由视觉编码器提取的“渲染CoT图像”的特征空间上。
在推理步骤 时,生成的 latent embedding 可以记为 ,target vision embedding 记为 。此时 vision embedding 的对齐损失可以记为:

此外,在第一阶段中,为了使模型与所提出的推理模式保持一致,同时对 <|img_end|> 这一 special token 和答案的交叉熵损失进行了建模:

其中 是生成的 latent visual tokens, 为问题 的 ground truth 答案。阶段一的整体损失函数为上述两者加权:

阶段二:潜在监督微调 (Latent Supervised Fine-Tuning)
在对齐之后,第二阶段通过 LoRA 微调 LLM,并且冻结已经训练对齐的投影头。此时,模型不再生成文本 Token,而是自回归地生成一串连续的“潜在视觉 Token”(Latent Visual Tokens)。这些 Token 在隐空间中模拟了视觉编码器的输出,最终引导模型解码出正确的文本答案。

推理与解码策略
推理过程要求模型自主地从连续的潜在推理空间导航到离散的文本解空间。研究团队探索了两种方案:基于 Special Token 的动态终止策略以及固定 Token 预算的静态终止策略。
-
基于 Special Token 的动态终止策略
推理阶段在第一个时间步长 结束,此时终止标记的概率达到最大值:

-
其中 表示 Token 集, 表示在时间步长 时的隐藏状态。模型从后续状态 开始对文本答案进行解码。
-
固定 Token 预算的静态终止策略
该策略将潜在思维链的长度限制为一个固定的超参数。达到这个阈值时,会手动添加
<|img_end|>这一 special token,以触发从潜在推理到文本生成的转换。
我们在实验中发现,动态终止策略的性能明显低于固定 Token 预算策略。这种性能差距可能源于连续潜空间中自我调节停止机制的内在不稳定性。在生成潜空间推理嵌入时,隐藏状态可能无法始终如一地为终止标记生成高置信度的预测,从而导致过早或延迟的转换,破坏推理流程。
此外,采用固定 Token 预算策略时,每个数据集的最优 Token 预算各不相同。在 GSM8k-Aug 数据集上,32 个 Token 能实现最佳性能,而 MATH 数据集则需要 64 个 Token 才能达到峰值准确率。研究者推测这种差异的出现是因为 MATH 数据集更具挑战性,需要更长的推理链。

实测结果
我们在 GSM8k、MATH、SVAMP 等多个数学和逻辑推理基准上对 RoT 进行了广泛测试。实验基于 Qwen3-VL 和 LLaVA-V1.6 等主流架构。
-
显著的压缩与加速。相比于显式 CoT,RoT 实现了 3-4 倍的 Token 压缩率。在推理速度上,RoT 展现出了巨大的优势。例如在 Qwen3-VL-4B 模型上,Pass@1/#L(准确率与长度比)指标显著优于基线。

-
优于现有的隐式推理方法。与 Coconut、CoLaR 等最新的隐式推理方法相比,RoT 在准确率上表现出色。特别是在 MultiArith 数据集上,RoT (Qwen3-VL-4B) 达到了 97.2% 的准确率,显著优于同等规模下其他隐空间推理方案。


-
隐空间推理的可分析性。RoT 的一大亮点在于其可分析性。由于隐状态被对齐到了视觉空间,可以通过热力图(Heatmap)等来观察模型的“思考过程”。研究团队展示了 MATH 数据集的一个案例。可以看到,生成的潜在 Token 呈现出明显的结构化模式,Token 相似度矩阵显示了推理的阶段性。这证明模型并非在随机生成向量,而是在进行有逻辑的隐式推理。

单行渲染 vs. 多行渲染
在RoT中,传统的固定尺寸的多行渲染会导致文本在图像中频繁换行。对于模型来说,这种换行在视觉空间中引入了不必要的“空间跳跃”,打断了语义的连续性。
为了验证这一点,我们对比了“固定尺寸的多行渲染图像”与 RoT 文中使用的“单行动态宽度图像”。

如上图所示,单行渲染相比多行渲染收敛更快,同时能够更好地契合语言模型从左到右的序列生成特性。
两阶段训练缺一不可
为了评估渐进式训练策略的效果,我们分别对每个阶段进行独立消融实验。
去除第一阶段会导致 MATH 的准确率从 33.2% 降至 22.2%,表明视觉对齐对于构建潜在空间结构以及在复杂任务中防止表示坍缩至关重要。同样,排除第二阶段也会导致性能显著下降,这会导致模型难以从连续的潜在空间中推导出最终答案。

展望
Render-of-Thought (RoT) 的提出,验证了“将思维渲染为图像”这一范式的可行性,为大模型的推理效率优化打开了一扇新的窗口。它打破了文本模态的限制,利用视觉信息的高密度特性来压缩推理过程。不过,我们认为RoT仍有一些问题等待探索:
-
自适应推理长度与停止机制:目前我们在实验中发现,模型在连续潜空间中很难自主决定“何时停止思考”,因此暂时采用了固定 Token 预算(如 GSM8k 用 32 个,MATH 用 64 个)。这显然不符合实际应用中问题难度动态变化的特性。我们在RoT探索过程中尝试将EOS渲染至图像思维链的尾部并自回归停止Token的方式进行训练,但难以停止。我们认为需要探索自适应的预算机制,或者设计更鲁棒的潜空间停止信号,以解决此问题。
-
黑盒的可视化与逆向解析:虽然我们现在可以通过热力图观察到隐状态的结构化模式,但这离真正的完全可视化还有距离。我们计划尝试通过训练一个图像Decoder将生成的视觉潜变量解码回图像或文本。这将极大地帮助研究者调试和观察模型的推理过程,真正打破推理黑盒。
-
验证场景的广度与深度:目前的验证主要集中在数学和逻辑推理(GSM8k, MATH)这类具有强确定性的任务上。为了证明 RoT 的通用性,需要在更多维度上进行测试。更多场景应包含常识推理、代码生成、内容理解等。并且多语言、多模态场景也有待验证,不同语言在渲染后的视觉密度不同;RoT 能否反哺 VLM 本身的图文推理任务(如 VQA),实现真正的模态互助也值得探索。
此外,我们也正在尝试RoT在一些内容理解业务复杂场景下的验证和落地,通过压缩复杂冗长的推理思维链来降低业务模型推理时的开销,取得效果和效率之间的平衡。



