DeepSeek技术演进全景图：从V1到V4的创新之路

“真正的创新，不是单点突破，而是系统性的持续优化。“

核心观点 / 起源

训练一个世界级大模型，需要解决三大致命瓶颈：

瓶颈1：成本高昂 - GPT-4训练成本超过1亿美元，中小团队根本玩不起。

瓶颈2：显存不足 - 长上下文需要海量KV Cache，80GB显存都不够用。

瓶颈3：推理能力弱 - 模型会记忆、会生成，但不会”思考”。

2024年初，当梁文峰决定全力投入大模型研发时，他面临的就是这三座大山。如果你是他，会怎么做？

直接训练大模型？太贵。模仿OpenAI的路线？没有足够资源。

DeepSeek选择了一条不同的路：从最基础的理论研究开始，系统性地优化Transformer的每个组件，用两年时间、9篇论文，一步步攻克这三大瓶颈。

结果是：

成本降低95%：$5M训练出媲美$100M的模型
显存降低10倍：同样硬件支持更长上下文
推理能力突破：纯强化学习训练出会”思考”的模型

本文将带你拆解DeepSeek如何用”工程师思维”，把不可能变成可能。

破局的三条主线

DeepSeek的技术演进围绕三条主线展开：

主线1：降低成本 - Scaling Law → MoE → 参数激活效率提升18倍

主线2：优化显存 - MLA → mHC → 显存占用降低10-12倍

主线3：提升能力 - 纯RL推理 → 动态注意力 → 推理能力质的飞跃

这三条主线不是孤立的，而是相互支撑、螺旋上升的。

过程 / 推演

阶段一：打基础（2024.01-2024.05）

第一步：理论先行 - Scaling Law研究

2024年初，DeepSeek没有急于训练模型，而是选择了一个看似”不起眼”的方向：Scaling Law（规模法则）。

为什么从这里开始？

Scaling Law的核心观点很简单：增加参数、数据和算力，模型性能就会提升。但当时的研究有明显缺陷——缺乏对超参数设置的系统研究。

DeepSeek深入研究了：

批次大小（Batch Size）对训练效率的影响
学习率（Learning Rate）的最优设置策略
训练数据量与算力的平衡关系

这一步的价值：为后续所有模型的训练提供了理论指导，避免了大量试错成本。

产出：第1篇论文 + DeepSeek V1（后来的DeepSeek LLM）

第二步：架构创新 - 解决成本瓶颈

有了理论基础，DeepSeek开始攻克第一个瓶颈：训练成本。

问题定位：Transformer的FFN（前馈神经网络）层占用大量参数，随着模型规模扩大，成本急剧上升。

解决方案：DeepSeek MoE（混合专家模型）

核心思想：

将FFN拆分成多个”专家”模块
每个Token只路由到部分专家
总参数不变，但激活参数大幅减少

创新点：

更细粒度的专家划分（64个专家 vs 传统的8个）
Token共享专家机制（保留通用知识）
负载均衡策略（避免专家坍缩）

效果：671B总参数，只激活37B（5.5%），计算量降低18倍。

产出：第2篇论文（DeepSeek MoE）

第三步：显存优化 - 解决第二个瓶颈

成本问题解决了，但显存还是瓶颈。KV Cache（注意力机制的缓存）占用大量显存。

现有方案的问题：

GQA（分组查询注意力）：成对合并，过于粗暴
MQA（多查询注意力）：所有头共享，性能损失大

DeepSeek的创新：MLA（Multi-head Latent Attention，多头潜在注意力）

核心思想：

将KV向量压缩到低维潜在空间
使用时再解压还原
类似图像的VAE压缩

理论基础：KV向量存在冗余，具有低秩特性。

效果：KV Cache从80GB降到10GB，性能损失<1%。

产出：第3篇论文 + DeepSeek V2

阶段二：规模化（2024.09）

第四步：工程整合 - DeepSeek V3

有了MoE和MLA两大核心技术，加上Scaling Law的理论指导，DeepSeek开始规模化验证。

DeepSeek V3的规模：

总参数：671B
激活参数：37B
训练时间：2个月
训练成本：$5-6M（传统方案需$100M+）

技术特点：

训练高效稳定
性能无损失
开源多功能
媲美顶级闭源模型

意义：证明了MoE+MLA的技术路线是可行的，为后续突破奠定了基础。

产出：第4篇论文，开始在开源社区获得广泛关注

阶段三：能力跃迁（2025.01）

第五步：范式突破 - 纯强化学习推理

2024年，GPT-o1展示了强大的推理能力，但训练方法是个谜。传统的监督微调（SFT）需要提供正确的推理步骤，成本高昂。

DeepSeek的激进尝试：完全放弃SFT，使用纯强化学习训练推理能力。

训练方式：

不提供正确的推理步骤
只给问题，让模型自由探索
答对了奖励，答错了惩罚

意外收获：

模型学会了自主推理
出现了”顿悟时刻”（Aha Moment）
模型会在输出过程中自我纠错：“等等，不对……”

GRPO算法：结合自研的Group Relative Policy Optimization算法，训练出了震撼世界的DeepSeek R1。

效果对比：

数学推理（MATH）：GPT-4 42.5% → DeepSeek R1 79.8%
代码生成（HumanEval）：GPT-4 67.0% → DeepSeek R1 76.2%

产出：第5-6篇论文，影响力远超前面所有论文的总和

阶段四：极致优化（2025.Q2-2026.04）

第六步：稳定性提升 - mHC

成功之后，DeepSeek没有停下脚步。他们发现连**残差连接（Residual Connection）**都有优化空间。

传统残差连接的问题：简单相加，信息传递过程中容易失真。

DeepSeek的改进：mHC（Manifold Constrained Hyper Connections，流形约束超连接）

核心思想：

将输入复制多份
通过可学习矩阵变换（而非简单相加）
添加流形约束，防止梯度爆炸

效果：为超大规模模型训练提供了更稳定的基础。

产出：第7篇论文

第七步：注意力再优化 - DSA/CSA/HCA

最后，DeepSeek对注意力机制进行了极致优化。

问题：注意力计算要求每个词都要看所有之前的词，上下文过长时计算量爆炸。

传统方案：滑动窗口（Sliding Window）- 只看固定窗口内的Token，过于粗暴。

DeepSeek的三重优化：

DSA（动态稀疏注意力）：用策略动态选择相关Token，而非固定窗口
CSA（压缩稀疏注意力）：压缩历史Token，类似MLA的思路
HCA（混合压缩注意力）：短期保留原始Token，长期使用压缩版本

应用：

DSA → DeepSeek V3.2
CSA + HCA → DeepSeek V4

产出：第8-9篇论文

一点补充：技术演进时间线

时间	版本	核心技术	解决的瓶颈	论文
2024.01	V1	Scaling Law	理论基础	论文1
2024.03	MoE	混合专家模型	成本瓶颈	论文2
2024.05	V2	MLA + MoE	显存瓶颈	论文3
2024.09	V3	工程整合	规模验证	论文4
2025.01	R1	纯RL推理	能力瓶颈	论文5-6
2025.Q2	V3.2	mHC + DSA	稳定性	论文7-8
2026.04	V4	CSA + HCA	效率极致	论文9

技术积累的复利效应：

Scaling Law → 指导MoE设计
MoE → 支撑V2/V3训练
V3 → 为R1提供基座模型
R1 → 验证纯RL推理可行性
mHC → 为V4超大规模训练铺路

每一步都是下一步的基础，这就是长期主义的力量。

结语 / 反思

回顾DeepSeek的技术演进，我们看到的不是某个”杀手级”创新，而是系统性、持续性的优化。

三个核心启示：

1. 系统性创新胜过单点突破

DeepSeek优化了Transformer的每个组件：

FFN → MoE（计算效率提升18倍）
Attention → MLA（显存降低8倍）
Residual → mHC（训练稳定性提升）
Context → DSA/CSA/HCA（注意力效率优化）

单个优化10-20%，系统优化10-15倍。

2. 理论先行，工程跟进

从Scaling Law研究开始，每一步都有扎实的理论基础，然后通过工程实践验证。这种”理论→实验→工程”的闭环，是快速迭代的关键。

3. 长期主义的复利

从2024年1月到2026年4月，两年多时间，9篇论文，4个主要版本。这种持续投入和耐心，让技术积累产生了复利效应。

对行业的启示：

大模型不是巨头专属：技术创新可以弥补资源差距
工程优化同样重要：10-100倍的效率提升是可能的
开源的力量：DeepSeek选择开源，不仅获得了社区认可，也通过反馈加速了技术迭代

DeepSeek的技术演进路线图，展示了中国AI团队如何通过系统性创新、工程极致优化和长期坚持，在大模型领域实现突破。

这不是终点，而是新的起点。在AI技术快速发展的今天，这种系统性、持续性的创新能力，或许才是最值得我们学习的。