他来了，他来了，DeepSeek V4 来了

2026-04-26

百万 token 上下文 + 混合注意力 + 三档推理——国产大模型再次刷新技术天花板

2026 年 4 月 24 日，DeepSeek 正式发布 V4 系列模型¹。这是继 V3 之后，国产开源大模型的又一次重大突破。

值得关注的是，就在 V4 发布前一天（4月23日），DeepSeek 首次启动外部融资的消息也被曝光——腾讯、阿里正洽谈投资，估值从 100 亿美元迅速攀升至 200 亿美元以上²。多年坚持不融资的 DeepSeek，此番同时推进技术发布与融资布局，战略意图明显。

相比 V3.2，V4 在百万 token 上下文支持、长序列推理效率、架构紧凑性三个维度同时取得进展，而且依旧完全开源。

本文基于 DeepSeek 官方技术报告³，为你拆解 V4 的核心升级点。

01 从”算不起”到”算得起”：长上下文的效率革命

大模型厂商都知道，上下文越长，能力越强。但超长上下文的成本是硬伤——标准注意力机制的复杂度是 O(n²)，上下文从 32K 扩展到 1M，显存和算力需求会爆炸式增长。

DeepSeek V4 的答案是混合注意力架构，由两个核心组件构成：

注意力机制	全称	作用
CSA	Compressed Sparse Attention	对 KV Cache 做序列维度压缩，然后执行稀疏注意力
HCA	Heavily Compressed Attention	更激进的压缩，保留密集注意力

简单理解：CSA 先把长序列”压缩打包”，HCA 进一步精简，两道工序配合，让模型在 1M token 场景下只处理最有价值的信息。

效率对比数据（1M token 上下文）：

模型	单 token FLOPs（相对值）	KV Cache（相对值）
DeepSeek-V3.2	100%	100%
DeepSeek-V4-Pro	27%	10%
DeepSeek-V4-Flash	10%	7%

来源：Figure 1，DeepSeek V4 技术报告

V4-Pro 的 FLOPs 降到 V3.2 的 27%，KV Cache 更是只有 10%。Flash 版本更是恐怖——FLOPs 10%、KV Cache 7%。这意味着曾经算不起的长上下文任务，现在可以常规跑了。

02 架构升级：mHC 超连接 + Muon 优化器

2.1 mHC：让信号传得更稳

V4 在残差连接上引入了流形约束超连接（Manifold-Constrained Hyper-Connections）⁴。

标准 Transformer 的残差连接像一条直线，信息逐层传递。mHC 把这条”直线”扩展成多车道高速——残差状态从 Rᵈ 扩展到 Rⁿʰᶜ ˣ ᵈ（nʜᴄ 通常远小于隐藏维度 d，开销很小）。

但 mHC 的核心创新是对变换矩阵 Bₗ 施加双重随机矩阵约束（Birkhoff 多面体流形），确保谱范数 ≤ 1。这带来两个好处：

前向传播：信号不会在层间膨胀或衰减
反向传播：梯度流稳定，深层堆叠不再训练不稳定

2.2 Muon：收敛更快的优化器

V4 训练采用 Muon 优化器⁵，而非传统的 AdamW。

Muon 基于牛顿-舒尔茨迭代（Hybrid Newton-Schulz），核心思想是用矩阵的正交性约束代替 AdamW 的自适应学习率。报告指出，Muon 带来”更快的收敛速度和更好的训练稳定性”。

实现层面，V4 使用 TileLang⁶ 开发了一组融合内核，将 MoE 模块中计算、通信、内存访问完全重叠。同时，V4 在 MoE 专家权重和索引器 QK 路径上应用了 FP4 量化感知训练，进一步降低显存占用。

03 三档推理：Think Fast / Standard / Max

V4 支持三种推理强度模式，这是本次发布最实用的产品化特性。

推理模式	特点	适用场景
Non-think	快，直觉式响应	日常任务、紧急响应、低风险决策
Think High	中等推理深度，三思而后行	复杂问题规划、中等风险决策
Think Max	极致推理，完全展开思考过程	探索模型能力边界、复杂代码调试

Think Max 的特殊系统提示词：

Reasoning Effort: Absolute maximum with no shortcuts permitted. You MUST be very thorough in your thinking and comprehensively decompose the problem to resolve the root cause, rigorously stress-testing your logic against all potential paths, edge cases, and adversarial scenarios. Explicitly write out your entire deliberation process…

换句话说：Think Max 不是让模型”想快点”，而是让它”把思考链完整展开，不走捷径”。这对复杂代码调试、长文档分析等场景非常有用。

04 代码 Agent 能力：Terminal Bench 72 分

V4 在代码 Agent 任务上做了专项优化，后训练流程采用”专家独立训练 + 统一蒸馏”的两阶段范式：

专家 SFT：在数学、代码、Agent、指令遵循等垂直领域独立微调
GRPO 强化学习：用生成式奖励模型（GRM）替代传统标量奖励模型，actor 网络原生兼作评估器
统一蒸馏：通过逆向 KL 损失将多专家能力整合到统一模型

代码 Agent 基准测试结果（V4-Pro-Max）：

基准	DeepSeek-V4-Pro-Max	备注
Terminal Bench 2.0	65.4	代码终端任务
SWE Verified	80.8	软件工程任务
SWE Pro	57.3	高级软件工程
SWE Multilingual	77.5	多语言代码任务

来源：Table 6，DeepSeek V4 技术报告

特别值得关注的是 Terminal Bench 2.0 Verified 子集得分约 72（内部评估集），与 Claude Sonnet 4.5 水平相当。在开源模型中，这个成绩相当亮眼。

V4 还引入了交错式思考（Interleaved Thinking）机制：工具调用轮次保留推理痕迹，直到新用户消息才清空。这解决了复杂 Agent 工作流中”每轮都重建思考状态”的令牌浪费问题。

05 核心参数一览

参数	DeepSeek-V4-Pro	DeepSeek-V4-Flash
总参数量	1.6T	284B
激活参数量	49B	13B
上下文长度	1M	1M
预训练语料	33T tokens	32T tokens
注意力机制	CSA + HCA	CSA + HCA
优化器	Muon	Muon

两个版本的差异在于规模和激活参数量。Flash 版本更轻量，适合对成本敏感的场景；Pro 版本参数更多，在复杂推理任务上表现更强。

常见问题 Q&A

Q：V4 和 V3 相比，最大的区别是什么？

A：V3 到 V4 的核心变化是长上下文处理效率。V4 通过 CSA+HCA 混合注意力，在 1M token 上下文下将 FLOPs 降至 V3.2 的 10-27%，KV Cache 降至 7-10%。这意味着曾经因算力成本无法实现的长上下文应用，现在可以落地了。

Q：Flash 版和 Pro 版怎么选？

A：Flash 版（284B 总参/13B 激活）更轻量，适合对成本敏感的日常应用；Pro 版（1.6T 总参/49B 激活）参数更多，在复杂推理和代码任务上更强。如果追求性价比，Flash 版已经能覆盖大多数场景。

Q：三档推理模式会影响模型能力吗？

A：不影响模型上限，但影响思考过程的长度。Non-think 适合快速问答；Think High 提供中等深度的推理；Think Max 则强制模型展开完整思考链。相同问题用 Think Max 回答会更全面，但消耗的 token 也更多。

Q：DeepSeek V4 开源吗？

A：是的，模型权重已开源在 HuggingFace¹，技术报告也同步公开。

06 总结

DeepSeek V4 的核心突破可以归结为三点：

长上下文效率革命：CSA+HCA 混合注意力让 1M token 上下文从”算不起”变成”算得起”，KV Cache 降至 V3.2 的 7-10%
架构紧凑性：mHC 超连接 + Muon 优化器，小激活参数实现大能力
灵活推理控制：三档推理模式让用户可以在速度和质量之间自由切换

对开发者而言，V4 最有价值的地方在于：开源模型第一次在代码 Agent 领域逼近 Claude Sonnet 4.5 水平，同时保持了国产模型的成本优势。

👉 想深入了解 DeepSeek 技术演进路径？参阅《DeepSeek 深度解析：技术突破、争议与行业影响》，那篇分析了 V3/R1 时代的技术与资本背景。

参考资料

1DeepSeek V4 官方发布 – HuggingFace 模型集合页 ↩↩

2腾讯与阿里洽谈投资 DeepSeek，估值超 200 亿美元 – 新浪财经，2026年4月22日 ↩

3DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence – DeepSeek-AI 技术报告（58页） ↩

4 Xie et al. (2026). Manifold-Constrained Hyper-Connections. 参见 V4 技术报告 Section 2.2 ↩

5 Jordan et al. (2024); Liu et al. (2025). Muon Optimizer. 参见 V4 技术报告 Section 2.4 ↩

6 Wang et al. (2026). TileLang. 用于 V4 融合内核开发的领域特定语言 ↩