ESSAY
DeepSeek技术演进全景图:从V1到V4的创新之路
“真正的创新,不是单点突破,而是系统性的持续优化。“
核心观点 / 起源
训练一个世界级大模型,需要解决三大致命瓶颈:
瓶颈1:成本高昂 - GPT-4训练成本超过1亿美元,中小团队根本玩不起。
瓶颈2:显存不足 - 长上下文需要海量KV Cache,80GB显存都不够用。
瓶颈3:推理能力弱 - 模型会记忆、会生成,但不会”思考”。
2024年初,当梁文峰决定全力投入大模型研发时,他面临的就是这三座大山。如果你是他,会怎么做?
直接训练大模型?太贵。模仿OpenAI的路线?没有足够资源。
DeepSeek选择了一条不同的路:从最基础的理论研究开始,系统性地优化Transformer的每个组件,用两年时间、9篇论文,一步步攻克这三大瓶颈。
结果是:
- 成本降低95%:$5M训练出媲美$100M的模型
- 显存降低10倍:同样硬件支持更长上下文
- 推理能力突破:纯强化学习训练出会”思考”的模型
本文将带你拆解DeepSeek如何用”工程师思维”,把不可能变成可能。
破局的三条主线
DeepSeek的技术演进围绕三条主线展开:
主线1:降低成本 - Scaling Law → MoE → 参数激活效率提升18倍
主线2:优化显存 - MLA → mHC → 显存占用降低10-12倍
主线3:提升能力 - 纯RL推理 → 动态注意力 → 推理能力质的飞跃
这三条主线不是孤立的,而是相互支撑、螺旋上升的。
过程 / 推演
阶段一:打基础(2024.01-2024.05)
第一步:理论先行 - Scaling Law研究
2024年初,DeepSeek没有急于训练模型,而是选择了一个看似”不起眼”的方向:Scaling Law(规模法则)。
为什么从这里开始?
Scaling Law的核心观点很简单:增加参数、数据和算力,模型性能就会提升。但当时的研究有明显缺陷——缺乏对超参数设置的系统研究。
DeepSeek深入研究了:
- 批次大小(Batch Size)对训练效率的影响
- 学习率(Learning Rate)的最优设置策略
- 训练数据量与算力的平衡关系
这一步的价值:为后续所有模型的训练提供了理论指导,避免了大量试错成本。
产出:第1篇论文 + DeepSeek V1(后来的DeepSeek LLM)
第二步:架构创新 - 解决成本瓶颈
有了理论基础,DeepSeek开始攻克第一个瓶颈:训练成本。
问题定位:Transformer的FFN(前馈神经网络)层占用大量参数,随着模型规模扩大,成本急剧上升。
解决方案:DeepSeek MoE(混合专家模型)
核心思想:
- 将FFN拆分成多个”专家”模块
- 每个Token只路由到部分专家
- 总参数不变,但激活参数大幅减少
创新点:
- 更细粒度的专家划分(64个专家 vs 传统的8个)
- Token共享专家机制(保留通用知识)
- 负载均衡策略(避免专家坍缩)
效果:671B总参数,只激活37B(5.5%),计算量降低18倍。
产出:第2篇论文(DeepSeek MoE)
第三步:显存优化 - 解决第二个瓶颈
成本问题解决了,但显存还是瓶颈。KV Cache(注意力机制的缓存)占用大量显存。
现有方案的问题:
- GQA(分组查询注意力):成对合并,过于粗暴
- MQA(多查询注意力):所有头共享,性能损失大
DeepSeek的创新:MLA(Multi-head Latent Attention,多头潜在注意力)
核心思想:
- 将KV向量压缩到低维潜在空间
- 使用时再解压还原
- 类似图像的VAE压缩
理论基础:KV向量存在冗余,具有低秩特性。
效果:KV Cache从80GB降到10GB,性能损失<1%。
产出:第3篇论文 + DeepSeek V2
阶段二:规模化(2024.09)
第四步:工程整合 - DeepSeek V3
有了MoE和MLA两大核心技术,加上Scaling Law的理论指导,DeepSeek开始规模化验证。
DeepSeek V3的规模:
- 总参数:671B
- 激活参数:37B
- 训练时间:2个月
- 训练成本:$5-6M(传统方案需$100M+)
技术特点:
- 训练高效稳定
- 性能无损失
- 开源多功能
- 媲美顶级闭源模型
意义:证明了MoE+MLA的技术路线是可行的,为后续突破奠定了基础。
产出:第4篇论文,开始在开源社区获得广泛关注
阶段三:能力跃迁(2025.01)
第五步:范式突破 - 纯强化学习推理
2024年,GPT-o1展示了强大的推理能力,但训练方法是个谜。传统的监督微调(SFT)需要提供正确的推理步骤,成本高昂。
DeepSeek的激进尝试:完全放弃SFT,使用纯强化学习训练推理能力。
训练方式:
- 不提供正确的推理步骤
- 只给问题,让模型自由探索
- 答对了奖励,答错了惩罚
意外收获:
- 模型学会了自主推理
- 出现了”顿悟时刻”(Aha Moment)
- 模型会在输出过程中自我纠错:“等等,不对……”
GRPO算法:结合自研的Group Relative Policy Optimization算法,训练出了震撼世界的DeepSeek R1。
效果对比:
- 数学推理(MATH):GPT-4 42.5% → DeepSeek R1 79.8%
- 代码生成(HumanEval):GPT-4 67.0% → DeepSeek R1 76.2%
产出:第5-6篇论文,影响力远超前面所有论文的总和
阶段四:极致优化(2025.Q2-2026.04)
第六步:稳定性提升 - mHC
成功之后,DeepSeek没有停下脚步。他们发现连**残差连接(Residual Connection)**都有优化空间。
传统残差连接的问题:简单相加,信息传递过程中容易失真。
DeepSeek的改进:mHC(Manifold Constrained Hyper Connections,流形约束超连接)
核心思想:
- 将输入复制多份
- 通过可学习矩阵变换(而非简单相加)
- 添加流形约束,防止梯度爆炸
效果:为超大规模模型训练提供了更稳定的基础。
产出:第7篇论文
第七步:注意力再优化 - DSA/CSA/HCA
最后,DeepSeek对注意力机制进行了极致优化。
问题:注意力计算要求每个词都要看所有之前的词,上下文过长时计算量爆炸。
传统方案:滑动窗口(Sliding Window)- 只看固定窗口内的Token,过于粗暴。
DeepSeek的三重优化:
- DSA(动态稀疏注意力):用策略动态选择相关Token,而非固定窗口
- CSA(压缩稀疏注意力):压缩历史Token,类似MLA的思路
- HCA(混合压缩注意力):短期保留原始Token,长期使用压缩版本
应用:
- DSA → DeepSeek V3.2
- CSA + HCA → DeepSeek V4
产出:第8-9篇论文
一点补充:技术演进时间线
| 时间 | 版本 | 核心技术 | 解决的瓶颈 | 论文 |
|---|---|---|---|---|
| 2024.01 | V1 | Scaling Law | 理论基础 | 论文1 |
| 2024.03 | MoE | 混合专家模型 | 成本瓶颈 | 论文2 |
| 2024.05 | V2 | MLA + MoE | 显存瓶颈 | 论文3 |
| 2024.09 | V3 | 工程整合 | 规模验证 | 论文4 |
| 2025.01 | R1 | 纯RL推理 | 能力瓶颈 | 论文5-6 |
| 2025.Q2 | V3.2 | mHC + DSA | 稳定性 | 论文7-8 |
| 2026.04 | V4 | CSA + HCA | 效率极致 | 论文9 |
技术积累的复利效应:
- Scaling Law → 指导MoE设计
- MoE → 支撑V2/V3训练
- V3 → 为R1提供基座模型
- R1 → 验证纯RL推理可行性
- mHC → 为V4超大规模训练铺路
每一步都是下一步的基础,这就是长期主义的力量。
结语 / 反思
回顾DeepSeek的技术演进,我们看到的不是某个”杀手级”创新,而是系统性、持续性的优化。
三个核心启示:
1. 系统性创新胜过单点突破
DeepSeek优化了Transformer的每个组件:
- FFN → MoE(计算效率提升18倍)
- Attention → MLA(显存降低8倍)
- Residual → mHC(训练稳定性提升)
- Context → DSA/CSA/HCA(注意力效率优化)
单个优化10-20%,系统优化10-15倍。
2. 理论先行,工程跟进
从Scaling Law研究开始,每一步都有扎实的理论基础,然后通过工程实践验证。这种”理论→实验→工程”的闭环,是快速迭代的关键。
3. 长期主义的复利
从2024年1月到2026年4月,两年多时间,9篇论文,4个主要版本。这种持续投入和耐心,让技术积累产生了复利效应。
对行业的启示:
- 大模型不是巨头专属:技术创新可以弥补资源差距
- 工程优化同样重要:10-100倍的效率提升是可能的
- 开源的力量:DeepSeek选择开源,不仅获得了社区认可,也通过反馈加速了技术迭代
DeepSeek的技术演进路线图,展示了中国AI团队如何通过系统性创新、工程极致优化和长期坚持,在大模型领域实现突破。
这不是终点,而是新的起点。在AI技术快速发展的今天,这种系统性、持续性的创新能力,或许才是最值得我们学习的。