DeepSeek-V3.2｜技术报告解读

本文对《DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models》技术报告进行了详尽解读。文章指出，DeepSeek-V3.2 在推理能力上已追平 GPT-5-High，其高算力版本 Speciale 在数学和编程领域接近 Gemini-3.0-Pro。实现这些突破的关键在于三项核心技术：首先，**DeepSeek 稀疏注意力（DSA）**将长上下文计算复杂度从 O(L²)降至 O(Lk)，显著提升了**长上下文处理能力和**效率而不牺牲性能；其次，**大规模后训练加码**，其计算预算超过预训练的 10%，通过专家蒸馏和 GRPO 混合 RL 训练，有效避免了多阶段训练的灾难性遗忘，并**大幅提升了模型在难任务上的表现**；最后，**大规模智能体数据合成**，通过生成 1，800 个环境和 85，000 个“难解易验”任务，极大地提升了模型在智能体场景下的泛化能力。文章还详细阐述了 V3.2 在**Thinking in Tool-Use**方面的优化，即在工具返回结果时不丢弃推理内容，提高了工具调用效率。最后，报告坦诚地指出了 DeepSeek-V3.2 在世界知识、Token 效率和最难任务上的局限性。

这是一篇报告解读，原文是《DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models》

DeepSeek-V3.2｜技术报告解读 — 后台回复 DS-V3.2 获得这份报告

先说结论

DeepSeek-V3.2

在推理能力上追平 GPT-5-High，在部分指标上超越

DeepSeek-V3.2-Speciale（高算力版）

在 2025 年 IMO 和 IOI 拿了金牌，推理能力接近 Gemini-3.0-Pro

怎么做到的？三件事

DSA（DeepSeek Sparse Attention）

一种稀疏注意力机制，大幅降低长上下文的计算成本

后训练加码

把后训练的计算预算提到预训练的 10% 以上

大规模合成数据

生成了 1,800 个环境、85,000 个任务，全是合成的

下面一个一个说

DSA：把注意力从 O(L²) 降到 O(Lk)

传统的 Transformer 注意力机制是 O(L²) 复杂度，L 指的是序列长度

简单说一下

计算机领域，通常用 O(x) 来说明复杂度：比如 O(L) 的含义是随着 L 增加，则复杂度线性增加；而 O(L²) 的意思是按长度的平方倍增加。

文本长度翻 2 倍，计算量翻 4 倍；长度翻 10 倍，计算量翻 100 倍

这长上下文场景中，这个复杂度就成了大问题，推理慢，后训练也很难做

所以你很少会见到超过 128k 的上下文（ GPT-3.5 最早默认 4k 上下文）

DeepSeek 的解决方案是 DSA，核心思路是：

并非每个 token 都看全部上下文，只看最相关的 k 个 token

这样计算量就变成 O(Lk)，k 是个固定值（2048），不再随文本长度爆炸式增长

具体实现分两步：

第一步：Lightning Indexer

一个轻量级的打分器，给每个历史 token 打分，决定哪些值得关注

这个打分器用 ReLU 激活函数，可以跑在 FP8 精度，算力开销很小

第二步：Fine-grained Token Selection

根据 Lightning Indexer 的打分，只选 top-k 个 token 做真正的注意力计算

在 DeepSeek-V3.2 里，k = 2048

虽然 Lightning Indexer 本身还是 O(L²)，但它比主注意力轻很多，整体效率大幅提升

DSA 训练的两个阶段

阶段一：Dense Warm-up

先冻住主模型，只训练 Lightning Indexer

训练目标是让 Indexer 的输出分布对齐主注意力的分布

用 KL 散度做 loss

只训练了 1000 步，共 2.1B tokens

阶段二：Sparse Training

放开所有参数，让模型适应稀疏注意力模式

继续用 KL 散度对齐 Indexer 和主注意力

训练了 15000 步，共 943.7B tokens

效果怎么样？

在 128K 长度的 prefilling 阶段，V3.2 的成本基本不随位置增长，V3.1-Terminus 是线性增长

并且：性能没降

在 ChatbotArena 的 Elo 评分上，V3.2-Exp 和 V3.1-Terminus 基本持平

在独立的长上下文评测（AA-LCR、Fiction.liveBench）上，V3.2-Exp 甚至更好

后训练加码：预算超过预训练的 10%

过去，开源模型的后训练投入普遍不足，这限制了它们在难任务上的表现

DeepSeek 的做法是：大力出奇迹

具体数字是：后训练的计算预算超过预训练成本的 10%

这是很激进的配置

后训练流程分两步

第一步：专家蒸馏（Specialist Distillation）

为每个任务领域训练一个专门的「专家模型」

六个领域：数学、编程、通用逻辑推理、通用智能体、代码智能体、搜索智能体

每个领域都支持 thinking 和 non-thinking 两种模式

每个专家都用大规模 RL 训练

训练好之后，用专家模型生成领域数据，给最终模型用

第二步：混合 RL 训练（Mixed RL Training）

把推理、智能体、人类对齐三类任务合并成一个 RL 阶段

用 GRPO（Group Relative Policy Optimization）算法

这样做的好处是：避免多阶段训练的灾难性遗忘

GRPO 的几个关键改进

论文详细说了四个稳定化技巧：

1. Unbiased KL Estimate

原来的 K3 estimator 在某些情况下会给低概率 token 分配过大的梯度权重，导致训练不稳定

DeepSeek 用重要性采样修正了这个问题

Off-Policy Sequence Masking

把偏离当前策略太远的负样本 mask 掉

直觉是：从自己的错误里学比从不相关的错误里学更有效

Keep Routing

MoE 模型的专家路由在推理和训练时可能不一致

DeepSeek 保存推理时的路由路径，训练时强制复用

Keep Sampling Mask

Top-p 采样时的截断 mask 也保存下来，训练时复用

保证采样策略和训练策略一致

大规模智能体数据合成

泛化能力，是大模型在智能体场景的另一个短板

原因很简单：没有足够多样的训练环境

DeepSeek 的解决方案是：自己合成

具体数据

代码智能体 24,667 个任务（真实环境，提取的提示）

搜索智能体 50,275 个任务（真实环境，合成的提示）

通用智能体 4,417 个任务（合成环境，合成提示）

代码解释器 5,908 个任务（真实环境，提取的提示）

合成流程，很有意思

1. 给定一个任务类型（比如旅行规划），agent 先用 bash 和搜索工具从网上拉数据，存到沙箱数据库
2. Agent 合成一套任务相关的工具函数
3. Agent 先提出一个简单任务，写好解决方案和验证函数
4. 迭代增加任务难度，同时更新解决方案和验证函数
5. 如果现有工具不够用，agent 会自动扩展工具集

最终得到了 1,827 个环境，4,417 个任务

有个 Trip Planning 的例子

从杭州出发的三天旅行，要求不重复城市/酒店/餐厅/景点，第二天的预算有复杂的条件约束...

任务很难解，但验证很简单——只要检查所有约束是否满足

这类「难解易验」的任务特别适合 RL

合成数据真的有用吗？

论文做了消融实验

用 V3.2-SFT 只在合成的通用智能体数据上做 RL，测试在 Tau2Bench、MCP-Mark、MCP-Universe 上的效果

结果是：显著提升

作为对照，只在代码和搜索环境上做 RL，这三个 benchmark 上没有提升

简而言之，这么做，确实带来了泛化能力

Thinking in Tool-Use

让推理和工具调用融合，是 v3.2 在工程上的关键设计

DeepSeek-R1 证明了「thinking」对解决复杂问题很有帮助

但 R1 的策略是：第二轮消息到来时，丢弃之前的推理内容

这在工具调用场景下很浪费——每次工具返回结果，模型都要重新推理一遍

DeepSeek-V3.2 的设计是：

• 只有新的用户消息到来时才丢弃推理内容
• 如果只是工具返回结果，保留推理内容
• 丢弃推理内容时，工具调用历史保留

注意

Roo Code、Terminus 这类用「用户消息」模拟工具交互的框架，无法享受这个优化；论文建议这类框架用 non-thinking 模式

Cold-Start

怎么让模型学会「边推理边调工具」，这个能力需要教

DeepSeek 的做法是设计专门的 system prompt：

• 告诉模型可以在 <think></think> 标签内多次调用工具
• 最多 20 次
• 最终答案不能包含工具调用

虽然这样训练出来的模式一开始不太稳定，但偶尔能产生正确的轨迹

有了这些种子数据，后续的 RL 就能持续优化

结果对比

到这里，我们看一下模型的性能，自己看图，不赘述了

这个是 DeepSeek-V3.2 的

这个是 DeepSeek-V3.2-Speciale 的竞赛成绩

需要说明的是：Token 效率，是 DeepSeek-V3.2 的一个短板

举个例子，在 Codeforces 中，Gemini-3.0-Pro 用 22k tokens 拿 2708 分，DeepSeek-V3.2 用 42k tokens 才拿 2386 分，Speciale 版本用 77k tokens 拿 2701 分

Speciale 版本为了达到更高性能，输出 token 数明显更多

具体的看这张图

其他：上下文管理策略

搜索智能体场景有个问题：经常撞到 128K 的上下文限制

DeepSeek 试了几种策略：

1. Summary：超限后总结轨迹，重新开始
2. Discard-75%：丢弃前 75% 的工具调用历史
3. Discard-all：丢弃所有工具调用历史（类似 Anthropic 的 new context tool）
4. Parallel-fewest-step：并行采样多个轨迹，选步数最少的

结果有点反直觉：

最简单的 Discard-all 效果最好，BrowseComp 从 53.4% 提升到 67.6%

Summary 效率最低，虽然也能提升性能

还差什么

DeepSeek 团队坦诚说了三个局限：

1. 世界知识不够丰富

训练算力有限，知识广度不如 Gemini-3.0-Pro

计划未来扩大预训练规模

2. Token 效率低

达到同样输出质量，需要生成更多 token

需要优化推理链的「智能密度」

这个上文提了

3. 最难的任务还有差距

在最顶尖的复杂任务上，和 Gemini-3.0-Pro 还有差距

我觉得吧，这三个局限其实指向同一个问题：算力

预训练算力不够，知识就不够广

后训练算力不够，token 效率就上不去

基础模型能力不够，最难的任务就做不好

但反过来说，DeepSeek 在有限算力下能做到这个程度，也或许说明...技术路线是对的？

总结

这篇论文，大致说了这三件事儿

• DSA 解决了效率问题，让大规模后训练成为可能
• 大规模后训练，带来了更高的训练回报
• 大规模合成数据，让智能体能力的泛化成为可能

三件事串起来，让 DeepSeek v3.2，在推理能力上追平了 GPT-5

{{userData.name}}已认证