百万令牌的效率革命 DeepSeek_V4技术报告全景解读

当"能处理多少 token"成为衡量模型能力的新维度,如何在不让成本和延迟失控的前提下,把上下文从几万推向百万,成了各家大模型最棘手的工程难题。DeepSeek 给出了自己的答案。


DeepSeek-V4 发布已有一段时间,其极具竞争力的定价与高效的缓存机制,给开发者们带来了不小的惊喜。然而,模型出色的表现背后,支撑它的技术创新更值得深入探究。今天,就让我们一同走进 DeepSeek-V4 的技术报告,剖析其内核。

V4 技术报告的副标题直接点题:迈向高效百万令牌上下文智能。报告的核心,在于讲解如何高效实现百万 token 的上下文处理。报告开篇即亮出几项关键创新:

  1. 结合了压缩稀疏注意力(CSA)重度压缩注意力(HCA)的混合注意力架构;
  2. 优化了传统残差连接,实现了流形约束超连接(mHC)
  3. 引入 Muon 优化器,替代部分场景下的 AdamW。

本文将沿着原文的行文脉络,从架构设计到训练推理基础设施,从预训练到后训练,系统梳理 DeepSeek V4 的核心技术贡献,带你读懂这份迈向百万令牌上下文的"效率蓝图"。


一、架构:在 Transformer 的躯壳里,换上全新的内核

V4 继承了 V3 的混合专家模型架构 DeepSeekMoE 和 MTP 策略,同时将激活函数从 Sigmoid 更改为 Sqrt(Softplus()),在激活稳定性上做了进一步优化。

![[Pasted image 20260509143446.png]]

上图是 V4的核心架构示意图,它用三处核心替换完成了一次"内核升级":

  • 将传统的 Attention 层,替换为 CSA / HCA 混合注意力
  • 将传统的残差连接,替换为 mHC(流形约束超连接)
  • 将传统的前馈 FFN 层,替换为 DeepSeekMoE

可以说,V4 的架构仍遵循 Transformer 的整体思想,但其内核已经完全更新。这就像一个汽车外壳没变,但发动机、变速箱和悬挂系统全部换了新的一代——它行驶在路上,里程表跳动的节奏已经和上一代完全不同。

下面我们逐一拆解这几个核心模块。


1. Manifold-Constrained Hyper-Connections(mHC)

DeepSeek-V4 引入了流形约束超连接(mHC),用于加强相邻 Transformer 块之间的传统残差连接。mHC 的核心思想是将残差映射约束到特定流形上,从而在保持模型表达能力的同时,增强跨层信号传播的稳定性。

用通俗的话来讲,mHC 就是把传统残差连接的"固定宽度"(n_hc)改成了"动态可变宽度"。可以把这个连接想象成一条高速公路:原来是 4 车道,车道两头是需要处理的 Transformer 层;现在把车道变宽,处理效率自然更高。但这个改进绝非简单的扩容,其核心在于"动态"与"约束"两个维度:

  • 约束:DeepSeek-V4 引入了双随机矩阵,保证残差变换是非扩张的,避免信号在跨层传播中失控放大;
  • 动态:线性映射的参数是动态生成的,分解为"依赖输入"的动态部分和"与输入无关"的静态部分,赋予模型更强的表达灵活性。

相比传统的固定宽度残差连接,mHC 提供了额外的模型容量和灵活性。相比早期的超连接(HC)方案,它通过数学约束解决了训练不稳定的问题,是对"残差"这一基础结构的一次有原则的升级。


2. Compressed Sparse Attention(CSA)

压缩稀疏注意力(CSA)是 DeepSeek-V4 应对长上下文的核心武器之一。

![[Pasted image 20260509142905.png]]

上图是压缩稀疏注意力(CSA)的架构图。它首先将每 m 个令牌的 KV 缓存压缩成一个条目,然后应用 DeepSeek 稀疏注意力进一步加速。

CSA 的核心目标是:在长上下文场景中,用 O(n) 的复杂度近似全注意力的 O(n²) 建模能力。它通过"压缩 + 稀疏 + 局部增强"三条路径共同实现:

  1. 压缩(精炼摘要):将每 m 个原始令牌的 KV 压缩为 1 个压缩令牌,大幅缩减 KV 序列长度;
  2. 稀疏(索引快速定位):每个查询只关注其中 k 个最相关的压缩令牌,进一步降低注意力计算量;
  3. 局部增强(滑动窗口捕捉细节):额外保留最近 n_win 个原始令牌的 KV,弥补压缩可能丢失的细粒度局部信息。

一句话总结:CSA 先"压缩"长文本为精炼摘要,再用"索引"快速定位相关片段,最后辅以"滑动窗口"捕捉细节,从而以极低的计算成本处理超长上下文。


3. Heavily Compressed Attention(HCA)

重度压缩注意力(HCA)与 CSA 架构类似,但采用了更激进的压缩策略:将 m'(远大于 m)个 token 的 KV 条目合并为一个,压缩比极高。

![[Pasted image 20260509142950.png]]

与 CSA 的区别在于,HCA 不采用稀疏注意力——因为压缩后的块数量已经很少,无需再进行稀疏筛选;此时索引器的计算和参数开销可能反而超过收益,直接放弃索引,用最朴素的方式全量压缩,反而更简单、更稳定。和 CSA 一样,HCA 也保留最近 n_win未压缩的原始 KV 条目,与所有压缩块共同参与核心注意力,确保模型在极度压缩的情况下,仍能捕捉到相邻令牌之间的强局部依赖。

既然有了 CSA,为何还需要 HCA? 两者各司其职:

场景 选择
需要极致压缩、快速处理全局依赖 HCA
需要在压缩和精度之间精细平衡 CSA

这种交错设计背后的工程哲学值得注意:它不是在 CSA 和 HCA 之间做"二选一"的取舍,而是认识到不同层的注意力需求天然不同——浅层可能更需要保留局部细节(适合 CSA),深层可能更需要全局语义(适合 HCA)。文章后面会提到,DeepSeek-V4 采用 CSA 和 HCA 交错使用的策略。需要极致压缩、快速处理全局依赖的场景用 HCA。需要在压缩和精度之间精细平衡的场景用 CSA。两者交错,让不同的层承担不同的"压缩角色",整体上达到更好的效率-精度权衡。

延伸:两个帮你记住 CSA 和 HCA 的比喻

光看定义,CSA 和 HCA 很容易混淆。B 站有两位 UP 主各自给出了一个形象的比喻,读完之后印象会深刻很多。

第一个比喻:镜头视角视频链接

把 HCA 想象成超广角镜头——视野极宽,能把整个场景一网打尽,但细节不可避免地被压缩进去;把 CSA 想象成微距长焦镜头——视野更窄,但能看清远处某个局部的纹理和细节。两种镜头各有用武之地,摄影师会根据场景切换,模型也一样——不同的层交替使用 HCA 和 CSA,等于同时配备了两种焦段。

第二个比喻:记忆与遗忘视频链接

把 CSA 比作人类的记忆——它通过稀疏索引有选择地保留重要信息,就像大脑会把值得记住的事情留下来;把 HCA 比作遗忘——重度压缩意味着大量细节被主动舍弃,只留下粗粒度的印象。而 CSA 和 HCA 的交错排列,则像极了人类的睡眠节律:清醒时积累记忆(CSA),入睡后完成遗忘与整合(HCA),记忆与遗忘之间的节律,反而让认知系统更高效。

两个比喻角度不同,但指向同一个核心:CSA 和 HCA 不是竞争关系,而是互补的两极,交错使用才是最优解。


4. 其他注意力细节

除 CSA 和 HCA 的核心架构外,DeepSeek-V4 混合注意力还包含以下几种技术。原报告为保持行文清晰,并未展开讨论,具体实现细节可参考开源代码

  • Query and Key-Value Entry Normalization(查询和键值条目归一化)
  • Partial Rotary Positional Embedding(部分旋转位置嵌入)
  • Additional Branch of Sliding Window Attention(滑动窗口注意力的附加分支)
  • Attention Sink(注意力汇聚点)

5. Muon 优化器

Muon 是 DeepSeek-V4 训练中采用的核心优化器之一,最早由 Keller Jordan 等人(现于 OpenAI)在小模型上验证。

Muon 是一种基于矩阵正交化的优化器。其核心思想是:对于神经网络中的二维权重矩阵 W,使用极分解(Polar Decomposition) 的方向进行更新,而非 AdamW 那样的逐元素自适应缩放。这种方式更好地尊重了权重矩阵的几何结构,在理论上具有更优的优化性质。

在 DeepSeek-V4 中,嵌入模块、预测头模块、mHC 模块的静态偏置和门控因子以及所有 RMSNorm 模块的权重保留了 AdamW 优化器,所有其他模块均使用 Muon 进行更新

与常规 Muon 不同,DeepSeek-V4 使用混合 Newton-Schulz 迭代进行正交化——无需真正计算 SVD(奇异值分解),通过迭代公式将矩阵近似正交化。其核心操作每次迭代执行:

![[Pasted image 20260509143023.png]]

$$Mk = a \cdot M{k-1} + b \cdot (M{k-1} M{k-1}^T) M{k-1} + c \cdot (M{k-1} M{k-1}^T)^2 M{k-1}$$

DeepSeek-V4 的"混合"之处在于分两阶段执行共 10 次迭代:

  • 前 8 步:系数 (a, b, c) = (3.4445, -4.7750, 2.0315),让矩阵的奇异值快速收敛到 1 附近;
  • 后 2 步:切换到系数 (2, -1.5, 0.5),将奇异值精确稳定在 1。

这种"先快速粗调、再精细校准"的策略,兼顾了收敛速度与数值稳定性。

值得一提的是,由于 DeepSeek-V4 的注意力架构允许直接对注意力查询和 KV 条目应用 RMSNorm,有效防止了注意力 logits 爆炸,因此在 Muon 优化器中无需采用 QK-Clip 技术。

小道消息:Kimi K2(月之暗面)用 Muon 训了 15.5T token,零崩溃。这也是 DeepSeek 跟进 Muon 的原因之一。


二、通用基础设施:让算法跑得起来的工程底座

架构创新需要强大的工程基础设施才能落地。这一章节介绍了 DeepSeek 支撑 V4 高效训练与推理的几项关键基础设施。

1. 专家并行中的细粒度通信-计算重叠

这一章节的重点发现是:在 MoE 层中,通信延迟可以有效地隐藏在计算之下

为此,DeepSeek 提出了一种细粒度的 EP(专家并行)方案,将通信和计算融合到一个流水线化的核函数中,实现通信与计算的重叠,从而在较低带宽环境下仍能保持高效的推理与训练。

![[Pasted image 20260509143047.png]]

DeepSeek 给出了一个具体的量化平衡条件:每个 GBps 的互连带宽足以隐藏 6.1 TFLOP/s 计算带来的通信。这一发现对当前受制于先进制程和互联带宽瓶颈的国产 GPU 而言,具有重大战略意义:

  1. 降低对极致互联带宽的依赖:传统观点认为高性能 MoE 必须搭配超高速片间互联(如 NVLink),DeepSeek 证明"适度带宽即可支撑高效训练推理"。国产 GPU 不必盲目追赶英伟达的顶级方案,而应追求"够用且平衡"的设计目标。

  2. 放大软件优化对硬件的补偿能力:在制程和物理带宽暂时落后的情况下,精细的流水线化、细粒度调度的核函数设计,可以显著弥补硬件的先天不足——"好算法 + 中等硬件"仍能产出有竞争力的系统性能。

  3. 为国产芯片设计提供量化参考:芯片厂商可根据目标算力合理设定互联带宽设计目标,避免过度追求高带宽而牺牲功耗与芯片面积。

  4. 提醒重视功耗余量与并发散热能力:DeepSeek 方案中计算、通信、存储高度并发,瞬时功耗较高。国产 GPU 更需在硬件设计中预留充足的功耗余量,并配套高效的散热方案,否则即使算法优化到位,也容易因功耗降频损失实际性能。


2. 使用 TileLang 进行灵活高效的核函数开发

DeepSeek 采用 TileLang(一种领域特定语言)高效开发了数百个融合核函数,替代了大量细粒度的 PyTorch 算子,兼顾开发效率与运行性能。关键技术创新包括:

  • 主机代码生成:将运行时检查从 Python 移到生成的主机代码,将每次调用开销从几十微秒降至 1 微秒以内,解决了 CPU 端编排瓶颈;
  • SMT 求解器集成:利用 Z3 进行形式整数分析,支持复杂张量索引的向量化、边界检查等优化,编译开销仅数秒;
  • 数值精度与逐位可重现性:默认禁用快速数学优化,提供 IEEE 标准内置函数,使 TileLang 核函数可与 CUDA 基线实现位级相同的结果,且不牺牲性能。

3. 高性能批不变性和确定性核函数库

DeepSeek 构建了一套高性能、批不变性、确定性的核函数库,确保预训练、后训练、推理全流程逐位对齐,且性能开销极小。

批不变性(保证同令牌在不同批次位置输出逐位相同):

  • 注意力方面采用双核函数策略(单 SM 高吞吐 + 多 SM 缓解波量化)并确保累加顺序一致;
  • 矩阵乘法方面用 DeepGEMM 替代 cuBLAS,放弃 split-k 但通过优化使性能不降甚至反超。

确定性(解决反向传播中因 atomicAdd 等导致的非确定性累加问题):

  • 注意力反向为每个 SM 分配独立累积缓冲区再全局归约;
  • MoE 反向通过令牌顺序预处理 + 缓冲区隔离;
  • mHC 小矩阵乘法采用分拆输出 + 后续确定性归约的策略。

4. FP4 量化感知训练

后训练阶段,DeepSeek 引入 FP4 量化感知训练(QAT),以降低推理时的内存占用并加速计算。主要应用于两处:

  • MoE 专家权重(显存主要来源)
  • CSA 索引器中的 QK 路径(加速长上下文注意力分数计算)

5. 训练框架

DeepSeek 在 V3 训练框架基础上,针对 V4 架构的三大新组件——Muon 优化器、mHC 和混合注意力机制——进行了关键工程优化,在保持高训练效率和稳定性的同时,解决了新增的内存、通信和计算挑战。

Muon 的高效实现:针对 Muon 需要完整梯度矩阵而与 ZeRO 分区冲突的问题,设计混合桶分配策略——密集参数用背包算法限区并填充(内存开销 <10%),MoE 参数展平后均匀分布。相同形状参数自动合并以批处理牛顿-舒尔茨迭代,并将 MoE 梯度量化到 BF16 使通信减半,配合两阶段归约(全交换 + FP32 局部求和)保证数值稳定性。

mHC 的经济高效实现:通过融合核函数、选择性重计算(避免重计算计算密集型操作)以及调整 DualPipe 流水线以适应新增通信,将 mHC 的挂钟时间开销控制在流水线阶段的 6.7% 以内

长上下文注意力的上下文并行:针对 CSA/HCA 压缩导致序列长度不均、压缩跨边界的问题,设计两阶段通信——先跨秩传递尾部 KV,再全收集后重组填充,配合预计算可见范围或 top-k 选择器指定索引。

灵活激活检查点:实现张量级的自动微分检查点机制,开发者只需标注关键张量,框架自动追踪计算图、反向遍历找出最小重计算子图,并能自动去重共享存储的张量,兼顾细粒度内存控制与编程便利性。


6. 推理框架

DeepSeek 为混合注意力机制设计了专门的推理框架,并在 V4 上引入了一项重要创新:引入磁盘存储机制来加速共享前缀请求,以解决异构 KV 缓存的管理问题。

混合注意力机制产生了多种 KV 条目(不同压缩比的 CSA/HCA、SWA 的滑动窗口、以及未就绪压缩的尾部状态),DeepSeek 采用双层设计进行管理:

![[Pasted image 20260509143105.png]]

KV 缓存结构

  • 状态缓存:为每个请求分配固定大小缓存块,存放 SWA 最近 n_win 个令牌和未压缩尾部状态;
  • 经典 KV 缓存:每个请求分配多个块,每块覆盖 lcm(m, m') 个原始令牌,分别产生 k1 个 CSA 压缩令牌和 k2 个 HCA 压缩令牌。同时通过稀疏注意力内核与缓存布局的协同设计,允许每块可变数量令牌而不损失性能。

磁盘 KV 缓存存储(消除共享前缀请求的重复预填充),提供三种策略:

策略 说明
全量 SWA 缓存 存储所有 SWA KV 条目,计算零冗余但磁盘访问模式不均衡
周期性检查点 每隔 p 个令牌存储检查点,在存储和重计算之间灵活权衡
零 SWA 缓存 不存储任何 SWA KV 条目,完全依靠重计算(需重算最后 n_win·L 个令牌)

CSA/HCA 的压缩 KV 条目则直接全量存储到磁盘,仅尾部不完整块需重计算。


三、预训练

1. 数据构建

DeepSeek-V4 在 V3 数据基础上,构建了更大规模、更多样化、更高质量的训练语料库。

数据规模与构成:总规模超过 32T 令牌,涵盖数学、代码、网页、长文档(科学论文、技术报告等)以及多语言数据。重点增强了编码能力(融入代理数据)和长尾文化知识的捕捉。

数据处理策略:继承 V3 的分词器(词汇表 128K)、令牌拆分和中间填充(FIM)策略,将不同来源文档打包以最小化截断。与 V3 不同的是,预训练阶段采用样本级注意力掩码,避免不同文档之间产生跨样本的注意力干扰。


2. 预训练设置

模型规格:V4 提供 Flash 和 Pro 两个版本,核心架构参数如下:

配置项 Flash Pro
层数 43 层 61 层
CSA/HCA 压缩率 m=4 / m’=128 m=4 / m’=128
SWA 窗口 128 128
MoE 路由专家数 256(激活6) 384(激活6)
训练令牌数 32T 33T
峰值学习率 2.7e-4 2.0e-4

训练策略:采用 Muon + AdamW 混合优化器;批量大小渐进增长(Flash 最大 75.5M,Pro 最大 94.4M);序列长度从 4K 逐步扩展至 1M。注意力策略:前 1T 令牌用密集注意力预热,序列达 64K 后引入稀疏注意力,先预热索引器再正式训练。

训练稳定性:针对损失尖峰问题提出两项技术:

  • 预期路由:使用历史参数预计算路由索引,将骨干与路由解耦,动态触发时额外开销约 20%;
  • SwiGLU 截断:将线性分量限制在 [-10, 10],门控分量上限 10,有效消除异常值且不影响性能。

3. 基础模型评估

DeepSeek-V4 系列基础模型在世界知识、语言理解与推理、编码与数学、长上下文四大维度的全面基准上进行了评估,并与 DeepSeek-V3.2 进行对比。

  • DeepSeek-V4-Flash-Base(激活 13B / 总 284B):以远少于 V3.2(激活 37B / 总 671B)的参数,在大部分基准上实现超越,尤其在知识类和长上下文任务中优势明显,体现了架构、数据和训练优化的综合收益。

  • DeepSeek-V4-Pro-Base(激活 49B / 总 1.6T):进一步实现近乎全面的性能领先,在 MMLU-Pro(73.5%)、Simple-QA(55.2%)、FACTS(62.6%)、LongBench-V2(51.5%)等挑战性基准上创下 DeepSeek 基础模型的新高。


四、后训练

1. 后训练流程

DeepSeek-V4 的后训练流程,核心变化是将混合强化学习阶段完全替换为策略内蒸馏(OPD),并围绕专家训练和推理能力优化进行了多项创新。

专家训练:通过微调 + GRPO 强化学习训练多个领域专家。引入三种推理努力模式(非思考 / 思考高 / 思考最大),通过长度惩罚和上下文窗口控制输出长度,并用 <think> 标签区分。摒弃传统标量奖励模型,改用生成式奖励模型(GRM),让 Actor 网络同时充当评估器,使推理与评判能力联合优化。

工程创新

  • 工具调用:采用基于 XML 的 |DSML| 格式,减少转义失败和调用错误;
  • 交错思考:工具场景中保留全部推理历史(跨用户轮次),一般对话场景则丢弃,兼顾代理任务连贯性与上下文简洁;
  • 快速指令:通过特殊令牌(如 <|action|><|query|>)并行处理辅助任务,复用 KV 缓存,显著降低首次令牌时间(TTFT)。

策略内蒸馏(OPD):用十多个教师模型蒸馏出统一学生模型,通过反向 KL 散度(全词汇 logits 蒸馏,非令牌级估计)稳定梯度、忠实迁移知识,规避传统权重合并或混合 RL 的性能下降问题。


2. RL 和 OPD 基础设施

为支持大规模 RL 和 OPD(涉及超长上下文、十多个万亿参数教师模型),DeepSeek 在后训练基础设施上引入了五项关键工程优化:

FP4 量化集成:rollout 和推理阶段直接使用原生 FP4 权重加速、减少内存流量;训练阶段通过无损 FP4→FP8 转换复用现有 FP8 框架,无需修改反向传播。

全词汇 OPD 的高效教师调度:教师权重以类似 ZeRO 方式分片存储于分布式存储,按需加载。为避免存储完整 logits(词汇量 >100k),只缓存教师最后一层隐藏状态,训练时动态重建 logits。通过按教师索引排序样本,确保每个 mini-batch 每个教师头仅加载一次。KL 散度用专用 TileLang 核函数计算。

可抢占且容错的 Rollout 服务:实现令牌粒度的预写日志(WAL),每生成一个令牌立即追加。被抢占时保存 KV 缓存,恢复后继续解码;硬件故障时用 WAL 重放重建 KV 缓存。相比从头重新生成,既避免引入长度偏差,效率也更高。

为百万令牌上下文扩展 RL 框架:将 rollout 数据分解为轻量级元数据 + 重量级每令牌字段。元数据用于全局混洗和打包布局计算;每令牌字段通过共享内存加载器按需加载,消费后立即释放,显著降低内存压力。

代理 AI 沙箱基础设施(DSec):生产级沙箱平台,管理数十万并发实例。四个执行基板(函数调用 / 容器 / microVM / fullVM)统一接口;通过分层按需存储实现快速镜像加载;通过页缓存去重、自旋锁优化等提升密度;维护全局排序轨迹日志,支持客户端快进、细粒度溯源和确定性重放,实现抢占安全恢复。


3. 标准基准评估

DeepSeek-V4 系列在知识、推理、代码、代理、长上下文等多个标准基准上进行了全面评估。

评估覆盖:涵盖知识推理(MMLU-Pro、GPQA、HLE、SimpleQA 等)、代码(LiveCodeBench、Codeforces)、数学(HMMT、IMOAnswerBench、Apex、形式数学)、长上下文(MRCR 1M、CorpusQA 1M)和代理任务(SWE 系列、Terminal Bench、BrowseComp、Toolathlon 等)。

核心结论

  • DeepSeek-V4-Pro-Max:在开源模型中确立新 SOTA,知识类(SimpleQA-Verified 领先 20 个百分点)、代码(Codeforces 3206 分,排名人类第 23 位)、形式数学(Putnam-2025 达 120/120 满分)表现突出,部分指标追赶甚至持平闭源模型(GPT-5.4、Claude Opus 4.6)。

  • DeepSeek-V4-Flash-Max:以更小参数在代码和数学推理上超越此前开源最佳模型 K2.6-Thinking。

  • 长上下文:128K 内检索高度稳定,1M 处仍强于 Gemini-3.1-Pro。

  • 推理努力:最大模式(更长上下文 + 减少长度惩罚)在挑战性任务上显著优于高模式,且令牌效率比 V3.2 更高。


4. 真实世界任务性能

DeepSeek-V4 通过专有的内部指标,在真实世界任务上进行了评估,以弥合标准基准测试与实际用户体验之间的差距。

中文写作:DeepSeek-V4-Pro 在功能性和创意写作上均优于 Gemini-3.1-Pro(总体胜率 62.7% vs 34.1%,写作质量胜率 77.5%),但 Claude Opus 4.5 在最具挑战性的提示上仍保持优势。

搜索:检索增强搜索(RAG)上,V4-Pro 显著优于 V3.2,尤其在单值搜索和规划任务上;代理搜索在复杂任务上优于 RAG,且成本效率更高。

白领任务:在涵盖 13 个行业的企业生产力任务上,V4-Pro-Max 优于 Opus-4.6-Max(63% 非失败率),优势体现在任务完成度和内容质量(主动预判隐性意图、长文本连贯叙述),但在指令遵循和简洁摘要能力上仍有不足。

代码代理:在内部研发编码任务(PyTorch、CUDA、Rust 等)上,V4-Pro-Max(67%)显著优于 Claude Sonnet 4.5(47%),接近 Opus 4.5(70%)水平。开发者调查中,91% 倾向于将其作为主要编码模型,但也指出存在小错误、对模糊提示误解和过度思考等问题。


五、结论、局限性与未来方向

核心贡献

  • 通过 CSA + HCA 混合注意力架构,实现了高效百万令牌上下文支持;
  • V4-Pro-Max 在知识、推理、代理任务上重新定义开源模型 SOTA,接近前沿闭源模型;
  • V4-Flash-Max 以高成本效益实现了与领先闭源模型相当的推理性能。

局限性

  • 架构因保留大量验证组件而相对复杂,不够精简;
  • 预期路由与 SwiGLU 截断虽有效缓解训练不稳定,但其原理尚未被充分理解。

未来方向

  • 精简架构:删减冗余验证组件,追求更优雅的核心实现;
  • 训练稳定性:深入研究基础问题,建立更原则性的方法,而非依赖经验性 trick;
  • 新维度稀疏性:探索稀疏嵌入模块等新方向,进一步提升效率;
  • 低延迟部署:优化长上下文场景的架构与系统,加速实际交互体验;
  • 长期代理能力:加强长期多轮代理任务的处理能力;
  • 多模态整合:引入图像、音频等多模态能力;
  • 数据策略:改进数据策划与合成策略,增强模型的智能性、鲁棒性与实用性。

小结

DeepSeek V4 技术报告呈现的,是一场从架构到基础设施、从预训练到后训练的系统性工程创新。CSA/HCA 解决了"如何高效看长文",mHC 解决了"如何更稳定地传信号",Muon 解决了"如何更高效地更新权重",而通信-计算重叠、TileLang、FP4 QAT 等工程手段则让这一切真正跑得起来。

百万令牌上下文从来不是单一技术的成果,它是算法与工程在每一个细节上精密咬合的结果。这份报告值得反复研读。

暂无评论

发送评论 编辑评论


				
上一篇