ESSAY

DeepSeek技术演进全景图:从V1到V4的创新之路

AI DeepSeek 大语言模型 技术演进

“真正的创新,不是单点突破,而是系统性的持续优化。“

核心观点 / 起源

训练一个世界级大模型,需要解决三大致命瓶颈:

瓶颈1:成本高昂 - GPT-4训练成本超过1亿美元,中小团队根本玩不起。

瓶颈2:显存不足 - 长上下文需要海量KV Cache,80GB显存都不够用。

瓶颈3:推理能力弱 - 模型会记忆、会生成,但不会”思考”。

2024年初,当梁文峰决定全力投入大模型研发时,他面临的就是这三座大山。如果你是他,会怎么做?

直接训练大模型?太贵。模仿OpenAI的路线?没有足够资源。

DeepSeek选择了一条不同的路:从最基础的理论研究开始,系统性地优化Transformer的每个组件,用两年时间、9篇论文,一步步攻克这三大瓶颈。

结果是:

  • 成本降低95%:$5M训练出媲美$100M的模型
  • 显存降低10倍:同样硬件支持更长上下文
  • 推理能力突破:纯强化学习训练出会”思考”的模型

本文将带你拆解DeepSeek如何用”工程师思维”,把不可能变成可能。

破局的三条主线

DeepSeek的技术演进围绕三条主线展开:

主线1:降低成本 - Scaling Law → MoE → 参数激活效率提升18倍

主线2:优化显存 - MLA → mHC → 显存占用降低10-12倍

主线3:提升能力 - 纯RL推理 → 动态注意力 → 推理能力质的飞跃

这三条主线不是孤立的,而是相互支撑、螺旋上升的。

过程 / 推演

阶段一:打基础(2024.01-2024.05)

第一步:理论先行 - Scaling Law研究

2024年初,DeepSeek没有急于训练模型,而是选择了一个看似”不起眼”的方向:Scaling Law(规模法则)

为什么从这里开始?

Scaling Law的核心观点很简单:增加参数、数据和算力,模型性能就会提升。但当时的研究有明显缺陷——缺乏对超参数设置的系统研究

DeepSeek深入研究了:

  • 批次大小(Batch Size)对训练效率的影响
  • 学习率(Learning Rate)的最优设置策略
  • 训练数据量与算力的平衡关系

这一步的价值:为后续所有模型的训练提供了理论指导,避免了大量试错成本。

产出:第1篇论文 + DeepSeek V1(后来的DeepSeek LLM)


第二步:架构创新 - 解决成本瓶颈

有了理论基础,DeepSeek开始攻克第一个瓶颈:训练成本

问题定位:Transformer的FFN(前馈神经网络)层占用大量参数,随着模型规模扩大,成本急剧上升。

解决方案:DeepSeek MoE(混合专家模型)

核心思想

  1. 将FFN拆分成多个”专家”模块
  2. 每个Token只路由到部分专家
  3. 总参数不变,但激活参数大幅减少

创新点

  • 更细粒度的专家划分(64个专家 vs 传统的8个)
  • Token共享专家机制(保留通用知识)
  • 负载均衡策略(避免专家坍缩)

效果:671B总参数,只激活37B(5.5%),计算量降低18倍。

产出:第2篇论文(DeepSeek MoE)


第三步:显存优化 - 解决第二个瓶颈

成本问题解决了,但显存还是瓶颈。KV Cache(注意力机制的缓存)占用大量显存。

现有方案的问题

  • GQA(分组查询注意力):成对合并,过于粗暴
  • MQA(多查询注意力):所有头共享,性能损失大

DeepSeek的创新:MLA(Multi-head Latent Attention,多头潜在注意力)

核心思想

  1. 将KV向量压缩到低维潜在空间
  2. 使用时再解压还原
  3. 类似图像的VAE压缩

理论基础:KV向量存在冗余,具有低秩特性。

效果:KV Cache从80GB降到10GB,性能损失<1%。

产出:第3篇论文 + DeepSeek V2


阶段二:规模化(2024.09)

第四步:工程整合 - DeepSeek V3

有了MoE和MLA两大核心技术,加上Scaling Law的理论指导,DeepSeek开始规模化验证。

DeepSeek V3的规模

  • 总参数:671B
  • 激活参数:37B
  • 训练时间:2个月
  • 训练成本:$5-6M(传统方案需$100M+)

技术特点

  • 训练高效稳定
  • 性能无损失
  • 开源多功能
  • 媲美顶级闭源模型

意义:证明了MoE+MLA的技术路线是可行的,为后续突破奠定了基础。

产出:第4篇论文,开始在开源社区获得广泛关注


阶段三:能力跃迁(2025.01)

第五步:范式突破 - 纯强化学习推理

2024年,GPT-o1展示了强大的推理能力,但训练方法是个谜。传统的监督微调(SFT)需要提供正确的推理步骤,成本高昂。

DeepSeek的激进尝试:完全放弃SFT,使用纯强化学习训练推理能力。

训练方式

  • 不提供正确的推理步骤
  • 只给问题,让模型自由探索
  • 答对了奖励,答错了惩罚

意外收获

  • 模型学会了自主推理
  • 出现了”顿悟时刻”(Aha Moment)
  • 模型会在输出过程中自我纠错:“等等,不对……”

GRPO算法:结合自研的Group Relative Policy Optimization算法,训练出了震撼世界的DeepSeek R1

效果对比

  • 数学推理(MATH):GPT-4 42.5% → DeepSeek R1 79.8%
  • 代码生成(HumanEval):GPT-4 67.0% → DeepSeek R1 76.2%

产出:第5-6篇论文,影响力远超前面所有论文的总和


阶段四:极致优化(2025.Q2-2026.04)

第六步:稳定性提升 - mHC

成功之后,DeepSeek没有停下脚步。他们发现连**残差连接(Residual Connection)**都有优化空间。

传统残差连接的问题:简单相加,信息传递过程中容易失真。

DeepSeek的改进:mHC(Manifold Constrained Hyper Connections,流形约束超连接)

核心思想

  1. 将输入复制多份
  2. 通过可学习矩阵变换(而非简单相加)
  3. 添加流形约束,防止梯度爆炸

效果:为超大规模模型训练提供了更稳定的基础。

产出:第7篇论文


第七步:注意力再优化 - DSA/CSA/HCA

最后,DeepSeek对注意力机制进行了极致优化。

问题:注意力计算要求每个词都要看所有之前的词,上下文过长时计算量爆炸。

传统方案:滑动窗口(Sliding Window)- 只看固定窗口内的Token,过于粗暴。

DeepSeek的三重优化

  1. DSA(动态稀疏注意力):用策略动态选择相关Token,而非固定窗口
  2. CSA(压缩稀疏注意力):压缩历史Token,类似MLA的思路
  3. HCA(混合压缩注意力):短期保留原始Token,长期使用压缩版本

应用

  • DSA → DeepSeek V3.2
  • CSA + HCA → DeepSeek V4

产出:第8-9篇论文

一点补充:技术演进时间线

时间版本核心技术解决的瓶颈论文
2024.01V1Scaling Law理论基础论文1
2024.03MoE混合专家模型成本瓶颈论文2
2024.05V2MLA + MoE显存瓶颈论文3
2024.09V3工程整合规模验证论文4
2025.01R1纯RL推理能力瓶颈论文5-6
2025.Q2V3.2mHC + DSA稳定性论文7-8
2026.04V4CSA + HCA效率极致论文9

技术积累的复利效应

  • Scaling Law → 指导MoE设计
  • MoE → 支撑V2/V3训练
  • V3 → 为R1提供基座模型
  • R1 → 验证纯RL推理可行性
  • mHC → 为V4超大规模训练铺路

每一步都是下一步的基础,这就是长期主义的力量。

结语 / 反思

回顾DeepSeek的技术演进,我们看到的不是某个”杀手级”创新,而是系统性、持续性的优化

三个核心启示

1. 系统性创新胜过单点突破

DeepSeek优化了Transformer的每个组件:

  • FFN → MoE(计算效率提升18倍)
  • Attention → MLA(显存降低8倍)
  • Residual → mHC(训练稳定性提升)
  • Context → DSA/CSA/HCA(注意力效率优化)

单个优化10-20%,系统优化10-15倍。

2. 理论先行,工程跟进

从Scaling Law研究开始,每一步都有扎实的理论基础,然后通过工程实践验证。这种”理论→实验→工程”的闭环,是快速迭代的关键。

3. 长期主义的复利

从2024年1月到2026年4月,两年多时间,9篇论文,4个主要版本。这种持续投入和耐心,让技术积累产生了复利效应。

对行业的启示

  • 大模型不是巨头专属:技术创新可以弥补资源差距
  • 工程优化同样重要:10-100倍的效率提升是可能的
  • 开源的力量:DeepSeek选择开源,不仅获得了社区认可,也通过反馈加速了技术迭代

DeepSeek的技术演进路线图,展示了中国AI团队如何通过系统性创新、工程极致优化和长期坚持,在大模型领域实现突破。

这不是终点,而是新的起点。在AI技术快速发展的今天,这种系统性、持续性的创新能力,或许才是最值得我们学习的。