他来了,他来了,DeepSeek V4 来了

百万 token 上下文 + 混合注意力 + 三档推理——国产大模型再次刷新技术天花板

2026 年 4 月 24 日,DeepSeek 正式发布 V4 系列模型1。这是继 V3 之后,国产开源大模型的又一次重大突破。

值得关注的是,就在 V4 发布前一天(4月23日),DeepSeek 首次启动外部融资的消息也被曝光——腾讯、阿里正洽谈投资,估值从 100 亿美元迅速攀升至 200 亿美元以上2。多年坚持不融资的 DeepSeek,此番同时推进技术发布与融资布局,战略意图明显。

相比 V3.2,V4 在百万 token 上下文支持、长序列推理效率架构紧凑性三个维度同时取得进展,而且依旧完全开源。

本文基于 DeepSeek 官方技术报告3,为你拆解 V4 的核心升级点。


01 从”算不起”到”算得起”:长上下文的效率革命

大模型厂商都知道,上下文越长,能力越强。但超长上下文的成本是硬伤——标准注意力机制的复杂度是 O(n²),上下文从 32K 扩展到 1M,显存和算力需求会爆炸式增长。

DeepSeek V4 的答案是混合注意力架构,由两个核心组件构成:

注意力机制全称作用
CSACompressed Sparse Attention对 KV Cache 做序列维度压缩,然后执行稀疏注意力
HCAHeavily Compressed Attention更激进的压缩,保留密集注意力

简单理解:CSA 先把长序列”压缩打包”,HCA 进一步精简,两道工序配合,让模型在 1M token 场景下只处理最有价值的信息。

效率对比数据(1M token 上下文):

模型单 token FLOPs(相对值)KV Cache(相对值)
DeepSeek-V3.2100%100%
DeepSeek-V4-Pro27%10%
DeepSeek-V4-Flash10%7%

来源:Figure 1,DeepSeek V4 技术报告

V4-Pro 的 FLOPs 降到 V3.2 的 27%,KV Cache 更是只有 10%。Flash 版本更是恐怖——FLOPs 10%、KV Cache 7%。这意味着曾经算不起的长上下文任务,现在可以常规跑了


02 架构升级:mHC 超连接 + Muon 优化器

2.1 mHC:让信号传得更稳

V4 在残差连接上引入了流形约束超连接(Manifold-Constrained Hyper-Connections)4

标准 Transformer 的残差连接像一条直线,信息逐层传递。mHC 把这条”直线”扩展成多车道高速——残差状态从 Rᵈ 扩展到 Rⁿʰᶜ ˣ ᵈ(nʜᴄ 通常远小于隐藏维度 d,开销很小)。

但 mHC 的核心创新是对变换矩阵 Bₗ 施加双重随机矩阵约束(Birkhoff 多面体流形),确保谱范数 ≤ 1。这带来两个好处:

  • 前向传播:信号不会在层间膨胀或衰减
  • 反向传播:梯度流稳定,深层堆叠不再训练不稳定

2.2 Muon:收敛更快的优化器

V4 训练采用 Muon 优化器5,而非传统的 AdamW。

Muon 基于牛顿-舒尔茨迭代(Hybrid Newton-Schulz),核心思想是用矩阵的正交性约束代替 AdamW 的自适应学习率。报告指出,Muon 带来”更快的收敛速度和更好的训练稳定性”。

实现层面,V4 使用 TileLang6 开发了一组融合内核,将 MoE 模块中计算、通信、内存访问完全重叠。同时,V4 在 MoE 专家权重和索引器 QK 路径上应用了 FP4 量化感知训练,进一步降低显存占用。


03 三档推理:Think Fast / Standard / Max

V4 支持三种推理强度模式,这是本次发布最实用的产品化特性。

推理模式特点适用场景
Non-think快,直觉式响应日常任务、紧急响应、低风险决策
Think High中等推理深度,三思而后行复杂问题规划、中等风险决策
Think Max极致推理,完全展开思考过程探索模型能力边界、复杂代码调试

Think Max 的特殊系统提示词:

Reasoning Effort: Absolute maximum with no shortcuts permitted. You MUST be very thorough in your thinking and comprehensively decompose the problem to resolve the root cause, rigorously stress-testing your logic against all potential paths, edge cases, and adversarial scenarios. Explicitly write out your entire deliberation process…

换句话说:Think Max 不是让模型”想快点”,而是让它”把思考链完整展开,不走捷径”。这对复杂代码调试、长文档分析等场景非常有用。


04 代码 Agent 能力:Terminal Bench 72 分

V4 在代码 Agent 任务上做了专项优化,后训练流程采用”专家独立训练 + 统一蒸馏”的两阶段范式:

  1. 专家 SFT:在数学、代码、Agent、指令遵循等垂直领域独立微调
  2. GRPO 强化学习:用生成式奖励模型(GRM)替代传统标量奖励模型,actor 网络原生兼作评估器
  3. 统一蒸馏:通过逆向 KL 损失将多专家能力整合到统一模型

代码 Agent 基准测试结果(V4-Pro-Max):

基准DeepSeek-V4-Pro-Max备注
Terminal Bench 2.065.4代码终端任务
SWE Verified80.8软件工程任务
SWE Pro57.3高级软件工程
SWE Multilingual77.5多语言代码任务

来源:Table 6,DeepSeek V4 技术报告

特别值得关注的是 Terminal Bench 2.0 Verified 子集得分约 72(内部评估集),与 Claude Sonnet 4.5 水平相当。在开源模型中,这个成绩相当亮眼。

V4 还引入了交错式思考(Interleaved Thinking)机制:工具调用轮次保留推理痕迹,直到新用户消息才清空。这解决了复杂 Agent 工作流中”每轮都重建思考状态”的令牌浪费问题。


05 核心参数一览

参数DeepSeek-V4-ProDeepSeek-V4-Flash
总参数量1.6T284B
激活参数量49B13B
上下文长度1M1M
预训练语料33T tokens32T tokens
注意力机制CSA + HCACSA + HCA
优化器MuonMuon

两个版本的差异在于规模和激活参数量。Flash 版本更轻量,适合对成本敏感的场景;Pro 版本参数更多,在复杂推理任务上表现更强。


常见问题 Q&A

Q:V4 和 V3 相比,最大的区别是什么?

A:V3 到 V4 的核心变化是长上下文处理效率。V4 通过 CSA+HCA 混合注意力,在 1M token 上下文下将 FLOPs 降至 V3.2 的 10-27%,KV Cache 降至 7-10%。这意味着曾经因算力成本无法实现的长上下文应用,现在可以落地了。

Q:Flash 版和 Pro 版怎么选?

A:Flash 版(284B 总参/13B 激活)更轻量,适合对成本敏感的日常应用;Pro 版(1.6T 总参/49B 激活)参数更多,在复杂推理和代码任务上更强。如果追求性价比,Flash 版已经能覆盖大多数场景。

Q:三档推理模式会影响模型能力吗?

A:不影响模型上限,但影响思考过程的长度。Non-think 适合快速问答;Think High 提供中等深度的推理;Think Max 则强制模型展开完整思考链。相同问题用 Think Max 回答会更全面,但消耗的 token 也更多。

Q:DeepSeek V4 开源吗?

A:是的,模型权重已开源在 HuggingFace1,技术报告也同步公开。


06 总结

DeepSeek V4 的核心突破可以归结为三点:

  1. 长上下文效率革命:CSA+HCA 混合注意力让 1M token 上下文从”算不起”变成”算得起”,KV Cache 降至 V3.2 的 7-10%
  2. 架构紧凑性:mHC 超连接 + Muon 优化器,小激活参数实现大能力
  3. 灵活推理控制:三档推理模式让用户可以在速度和质量之间自由切换

对开发者而言,V4 最有价值的地方在于:开源模型第一次在代码 Agent 领域逼近 Claude Sonnet 4.5 水平,同时保持了国产模型的成本优势。

👉 想深入了解 DeepSeek 技术演进路径?参阅《DeepSeek 深度解析:技术突破、争议与行业影响》,那篇分析了 V3/R1 时代的技术与资本背景。


参考资料

1DeepSeek V4 官方发布 – HuggingFace 模型集合页

2腾讯与阿里洽谈投资 DeepSeek,估值超 200 亿美元 – 新浪财经,2026年4月22日

3DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence – DeepSeek-AI 技术报告(58页)

4 Xie et al. (2026). Manifold-Constrained Hyper-Connections. 参见 V4 技术报告 Section 2.2

5 Jordan et al. (2024); Liu et al. (2025). Muon Optimizer. 参见 V4 技术报告 Section 2.4

6 Wang et al. (2026). TileLang. 用于 V4 融合内核开发的领域特定语言