他来了,他来了,DeepSeek V4 来了

百万 token 上下文 + 混合注意力 + 三档推理——国产大模型再次刷新技术天花板
2026 年 4 月 24 日,DeepSeek 正式发布 V4 系列模型1。这是继 V3 之后,国产开源大模型的又一次重大突破。
值得关注的是,就在 V4 发布前一天(4月23日),DeepSeek 首次启动外部融资的消息也被曝光——腾讯、阿里正洽谈投资,估值从 100 亿美元迅速攀升至 200 亿美元以上2。多年坚持不融资的 DeepSeek,此番同时推进技术发布与融资布局,战略意图明显。
相比 V3.2,V4 在百万 token 上下文支持、长序列推理效率、架构紧凑性三个维度同时取得进展,而且依旧完全开源。
本文基于 DeepSeek 官方技术报告3,为你拆解 V4 的核心升级点。
01 从”算不起”到”算得起”:长上下文的效率革命
大模型厂商都知道,上下文越长,能力越强。但超长上下文的成本是硬伤——标准注意力机制的复杂度是 O(n²),上下文从 32K 扩展到 1M,显存和算力需求会爆炸式增长。
DeepSeek V4 的答案是混合注意力架构,由两个核心组件构成:
| 注意力机制 | 全称 | 作用 |
|---|---|---|
| CSA | Compressed Sparse Attention | 对 KV Cache 做序列维度压缩,然后执行稀疏注意力 |
| HCA | Heavily Compressed Attention | 更激进的压缩,保留密集注意力 |
简单理解:CSA 先把长序列”压缩打包”,HCA 进一步精简,两道工序配合,让模型在 1M token 场景下只处理最有价值的信息。
效率对比数据(1M token 上下文):
| 模型 | 单 token FLOPs(相对值) | KV Cache(相对值) |
|---|---|---|
| DeepSeek-V3.2 | 100% | 100% |
| DeepSeek-V4-Pro | 27% | 10% |
| DeepSeek-V4-Flash | 10% | 7% |
来源:Figure 1,DeepSeek V4 技术报告
V4-Pro 的 FLOPs 降到 V3.2 的 27%,KV Cache 更是只有 10%。Flash 版本更是恐怖——FLOPs 10%、KV Cache 7%。这意味着曾经算不起的长上下文任务,现在可以常规跑了。
02 架构升级:mHC 超连接 + Muon 优化器
2.1 mHC:让信号传得更稳
V4 在残差连接上引入了流形约束超连接(Manifold-Constrained Hyper-Connections)4。
标准 Transformer 的残差连接像一条直线,信息逐层传递。mHC 把这条”直线”扩展成多车道高速——残差状态从 Rᵈ 扩展到 Rⁿʰᶜ ˣ ᵈ(nʜᴄ 通常远小于隐藏维度 d,开销很小)。
但 mHC 的核心创新是对变换矩阵 Bₗ 施加双重随机矩阵约束(Birkhoff 多面体流形),确保谱范数 ≤ 1。这带来两个好处:
- 前向传播:信号不会在层间膨胀或衰减
- 反向传播:梯度流稳定,深层堆叠不再训练不稳定
2.2 Muon:收敛更快的优化器
V4 训练采用 Muon 优化器5,而非传统的 AdamW。
Muon 基于牛顿-舒尔茨迭代(Hybrid Newton-Schulz),核心思想是用矩阵的正交性约束代替 AdamW 的自适应学习率。报告指出,Muon 带来”更快的收敛速度和更好的训练稳定性”。
实现层面,V4 使用 TileLang6 开发了一组融合内核,将 MoE 模块中计算、通信、内存访问完全重叠。同时,V4 在 MoE 专家权重和索引器 QK 路径上应用了 FP4 量化感知训练,进一步降低显存占用。
03 三档推理:Think Fast / Standard / Max
V4 支持三种推理强度模式,这是本次发布最实用的产品化特性。
| 推理模式 | 特点 | 适用场景 |
|---|---|---|
| Non-think | 快,直觉式响应 | 日常任务、紧急响应、低风险决策 |
| Think High | 中等推理深度,三思而后行 | 复杂问题规划、中等风险决策 |
| Think Max | 极致推理,完全展开思考过程 | 探索模型能力边界、复杂代码调试 |
Think Max 的特殊系统提示词:
Reasoning Effort: Absolute maximum with no shortcuts permitted. You MUST be very thorough in your thinking and comprehensively decompose the problem to resolve the root cause, rigorously stress-testing your logic against all potential paths, edge cases, and adversarial scenarios. Explicitly write out your entire deliberation process…
换句话说:Think Max 不是让模型”想快点”,而是让它”把思考链完整展开,不走捷径”。这对复杂代码调试、长文档分析等场景非常有用。
04 代码 Agent 能力:Terminal Bench 72 分
V4 在代码 Agent 任务上做了专项优化,后训练流程采用”专家独立训练 + 统一蒸馏”的两阶段范式:
- 专家 SFT:在数学、代码、Agent、指令遵循等垂直领域独立微调
- GRPO 强化学习:用生成式奖励模型(GRM)替代传统标量奖励模型,actor 网络原生兼作评估器
- 统一蒸馏:通过逆向 KL 损失将多专家能力整合到统一模型
代码 Agent 基准测试结果(V4-Pro-Max):
| 基准 | DeepSeek-V4-Pro-Max | 备注 |
|---|---|---|
| Terminal Bench 2.0 | 65.4 | 代码终端任务 |
| SWE Verified | 80.8 | 软件工程任务 |
| SWE Pro | 57.3 | 高级软件工程 |
| SWE Multilingual | 77.5 | 多语言代码任务 |
来源:Table 6,DeepSeek V4 技术报告
特别值得关注的是 Terminal Bench 2.0 Verified 子集得分约 72(内部评估集),与 Claude Sonnet 4.5 水平相当。在开源模型中,这个成绩相当亮眼。
V4 还引入了交错式思考(Interleaved Thinking)机制:工具调用轮次保留推理痕迹,直到新用户消息才清空。这解决了复杂 Agent 工作流中”每轮都重建思考状态”的令牌浪费问题。
05 核心参数一览
| 参数 | DeepSeek-V4-Pro | DeepSeek-V4-Flash |
|---|---|---|
| 总参数量 | 1.6T | 284B |
| 激活参数量 | 49B | 13B |
| 上下文长度 | 1M | 1M |
| 预训练语料 | 33T tokens | 32T tokens |
| 注意力机制 | CSA + HCA | CSA + HCA |
| 优化器 | Muon | Muon |
两个版本的差异在于规模和激活参数量。Flash 版本更轻量,适合对成本敏感的场景;Pro 版本参数更多,在复杂推理任务上表现更强。
常见问题 Q&A
Q:V4 和 V3 相比,最大的区别是什么?
A:V3 到 V4 的核心变化是长上下文处理效率。V4 通过 CSA+HCA 混合注意力,在 1M token 上下文下将 FLOPs 降至 V3.2 的 10-27%,KV Cache 降至 7-10%。这意味着曾经因算力成本无法实现的长上下文应用,现在可以落地了。
Q:Flash 版和 Pro 版怎么选?
A:Flash 版(284B 总参/13B 激活)更轻量,适合对成本敏感的日常应用;Pro 版(1.6T 总参/49B 激活)参数更多,在复杂推理和代码任务上更强。如果追求性价比,Flash 版已经能覆盖大多数场景。
Q:三档推理模式会影响模型能力吗?
A:不影响模型上限,但影响思考过程的长度。Non-think 适合快速问答;Think High 提供中等深度的推理;Think Max 则强制模型展开完整思考链。相同问题用 Think Max 回答会更全面,但消耗的 token 也更多。
Q:DeepSeek V4 开源吗?
A:是的,模型权重已开源在 HuggingFace1,技术报告也同步公开。
06 总结
DeepSeek V4 的核心突破可以归结为三点:
- 长上下文效率革命:CSA+HCA 混合注意力让 1M token 上下文从”算不起”变成”算得起”,KV Cache 降至 V3.2 的 7-10%
- 架构紧凑性:mHC 超连接 + Muon 优化器,小激活参数实现大能力
- 灵活推理控制:三档推理模式让用户可以在速度和质量之间自由切换
对开发者而言,V4 最有价值的地方在于:开源模型第一次在代码 Agent 领域逼近 Claude Sonnet 4.5 水平,同时保持了国产模型的成本优势。
👉 想深入了解 DeepSeek 技术演进路径?参阅《DeepSeek 深度解析:技术突破、争议与行业影响》,那篇分析了 V3/R1 时代的技术与资本背景。
参考资料
1DeepSeek V4 官方发布 – HuggingFace 模型集合页 ↩↩
2腾讯与阿里洽谈投资 DeepSeek,估值超 200 亿美元 – 新浪财经,2026年4月22日 ↩
3DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence – DeepSeek-AI 技术报告(58页) ↩
4 Xie et al. (2026). Manifold-Constrained Hyper-Connections. 参见 V4 技术报告 Section 2.2 ↩
5 Jordan et al. (2024); Liu et al. (2025). Muon Optimizer. 参见 V4 技术报告 Section 2.4 ↩
6 Wang et al. (2026). TileLang. 用于 V4 融合内核开发的领域特定语言 ↩