百万令牌的效率革命 DeepSeek_V4技术报告全景解读

当"能处理多少 token"成为衡量模型能力的新维度，如何在不让成本和延迟失控的前提下，把上下文从几万推向百万，成了各家大模型最棘手的工程难题。DeepSeek 给出了自己的答案。

DeepSeek-V4 发布已有一段时间，其极具竞争力的定价与高效的缓存机制，给开发者们带来了不小的惊喜。然而，模型出色的表现背后，支撑它的技术创新更值得深入探究。今天，就让我们一同走进 DeepSeek-V4 的技术报告，剖析其内核。

V4 技术报告的副标题直接点题：迈向高效百万令牌上下文智能。报告的核心，在于讲解如何高效实现百万 token 的上下文处理。报告开篇即亮出几项关键创新：

结合了压缩稀疏注意力（CSA）和重度压缩注意力（HCA）的混合注意力架构；
优化了传统残差连接，实现了流形约束超连接（mHC）；
引入 Muon 优化器，替代部分场景下的 AdamW。

本文将沿着原文的行文脉络，从架构设计到训练推理基础设施，从预训练到后训练，系统梳理 DeepSeek V4 的核心技术贡献，带你读懂这份迈向百万令牌上下文的"效率蓝图"。

一、架构：在 Transformer 的躯壳里，换上全新的内核

V4 继承了 V3 的混合专家模型架构 DeepSeekMoE 和 MTP 策略，同时将激活函数从 Sigmoid 更改为 Sqrt(Softplus())，在激活稳定性上做了进一步优化。

![[Pasted image 20260509143446.png]]

上图是 V4的核心架构示意图，它用三处核心替换完成了一次"内核升级"：

将传统的 Attention 层，替换为 CSA / HCA 混合注意力；
将传统的残差连接，替换为 mHC（流形约束超连接）；
将传统的前馈 FFN 层，替换为 DeepSeekMoE。

可以说，V4 的架构仍遵循 Transformer 的整体思想，但其内核已经完全更新。这就像一个汽车外壳没变，但发动机、变速箱和悬挂系统全部换了新的一代——它行驶在路上，里程表跳动的节奏已经和上一代完全不同。

下面我们逐一拆解这几个核心模块。

1. Manifold-Constrained Hyper-Connections（mHC）

DeepSeek-V4 引入了流形约束超连接（mHC），用于加强相邻 Transformer 块之间的传统残差连接。mHC 的核心思想是将残差映射约束到特定流形上，从而在保持模型表达能力的同时，增强跨层信号传播的稳定性。

用通俗的话来讲，mHC 就是把传统残差连接的"固定宽度"（n_hc）改成了"动态可变宽度"。可以把这个连接想象成一条高速公路：原来是 4 车道，车道两头是需要处理的 Transformer 层；现在把车道变宽，处理效率自然更高。但这个改进绝非简单的扩容，其核心在于"动态"与"约束"两个维度：

约束：DeepSeek-V4 引入了双随机矩阵，保证残差变换是非扩张的，避免信号在跨层传播中失控放大；
动态：线性映射的参数是动态生成的，分解为"依赖输入"的动态部分和"与输入无关"的静态部分，赋予模型更强的表达灵活性。

相比传统的固定宽度残差连接，mHC 提供了额外的模型容量和灵活性。相比早期的超连接（HC）方案，它通过数学约束解决了训练不稳定的问题，是对"残差"这一基础结构的一次有原则的升级。

2. Compressed Sparse Attention（CSA）

压缩稀疏注意力（CSA）是 DeepSeek-V4 应对长上下文的核心武器之一。

![[Pasted image 20260509142905.png]]

上图是压缩稀疏注意力（CSA）的架构图。它首先将每 m 个令牌的 KV 缓存压缩成一个条目，然后应用 DeepSeek 稀疏注意力进一步加速。

CSA 的核心目标是：在长上下文场景中，用 O(n) 的复杂度近似全注意力的 O(n²) 建模能力。它通过"压缩 + 稀疏 + 局部增强"三条路径共同实现：

压缩（精炼摘要）：将每 m 个原始令牌的 KV 压缩为 1 个压缩令牌，大幅缩减 KV 序列长度；
稀疏（索引快速定位）：每个查询只关注其中 k 个最相关的压缩令牌，进一步降低注意力计算量；
局部增强（滑动窗口捕捉细节）：额外保留最近 n_win 个原始令牌的 KV，弥补压缩可能丢失的细粒度局部信息。

一句话总结：CSA 先"压缩"长文本为精炼摘要，再用"索引"快速定位相关片段，最后辅以"滑动窗口"捕捉细节，从而以极低的计算成本处理超长上下文。

3. Heavily Compressed Attention（HCA）

重度压缩注意力（HCA）与 CSA 架构类似，但采用了更激进的压缩策略：将 m'（远大于 m）个 token 的 KV 条目合并为一个，压缩比极高。

![[Pasted image 20260509142950.png]]

与 CSA 的区别在于，HCA 不采用稀疏注意力——因为压缩后的块数量已经很少，无需再进行稀疏筛选；此时索引器的计算和参数开销可能反而超过收益，直接放弃索引，用最朴素的方式全量压缩，反而更简单、更稳定。和 CSA 一样，HCA 也保留最近 n_win 个未压缩的原始 KV 条目，与所有压缩块共同参与核心注意力，确保模型在极度压缩的情况下，仍能捕捉到相邻令牌之间的强局部依赖。

既然有了 CSA，为何还需要 HCA？ 两者各司其职：

场景	选择
需要极致压缩、快速处理全局依赖	HCA
需要在压缩和精度之间精细平衡	CSA

这种交错设计背后的工程哲学值得注意：它不是在 CSA 和 HCA 之间做"二选一"的取舍，而是认识到不同层的注意力需求天然不同——浅层可能更需要保留局部细节（适合 CSA），深层可能更需要全局语义（适合 HCA）。文章后面会提到，DeepSeek-V4 采用 CSA 和 HCA 交错使用的策略。需要极致压缩、快速处理全局依赖的场景用 HCA。需要在压缩和精度之间精细平衡的场景用 CSA。两者交错，让不同的层承担不同的"压缩角色"，整体上达到更好的效率-精度权衡。

延伸：两个帮你记住 CSA 和 HCA 的比喻

光看定义，CSA 和 HCA 很容易混淆。B 站有两位 UP 主各自给出了一个形象的比喻，读完之后印象会深刻很多。

第一个比喻：镜头视角（视频链接）

把 HCA 想象成超广角镜头——视野极宽，能把整个场景一网打尽，但细节不可避免地被压缩进去；把 CSA 想象成微距长焦镜头——视野更窄，但能看清远处某个局部的纹理和细节。两种镜头各有用武之地，摄影师会根据场景切换，模型也一样——不同的层交替使用 HCA 和 CSA，等于同时配备了两种焦段。

第二个比喻：记忆与遗忘（视频链接）

把 CSA 比作人类的记忆——它通过稀疏索引有选择地保留重要信息，就像大脑会把值得记住的事情留下来；把 HCA 比作遗忘——重度压缩意味着大量细节被主动舍弃，只留下粗粒度的印象。而 CSA 和 HCA 的交错排列，则像极了人类的睡眠节律：清醒时积累记忆（CSA），入睡后完成遗忘与整合（HCA），记忆与遗忘之间的节律，反而让认知系统更高效。

两个比喻角度不同，但指向同一个核心：CSA 和 HCA 不是竞争关系，而是互补的两极，交错使用才是最优解。

4. 其他注意力细节

除 CSA 和 HCA 的核心架构外，DeepSeek-V4 混合注意力还包含以下几种技术。原报告为保持行文清晰，并未展开讨论，具体实现细节可参考开源代码：

Query and Key-Value Entry Normalization（查询和键值条目归一化）
Partial Rotary Positional Embedding（部分旋转位置嵌入）
Additional Branch of Sliding Window Attention（滑动窗口注意力的附加分支）
Attention Sink（注意力汇聚点）

5. Muon 优化器

Muon 是 DeepSeek-V4 训练中采用的核心优化器之一，最早由 Keller Jordan 等人（现于 OpenAI）在小模型上验证。

Muon 是一种基于矩阵正交化的优化器。其核心思想是：对于神经网络中的二维权重矩阵 W，使用极分解（Polar Decomposition） 的方向进行更新，而非 AdamW 那样的逐元素自适应缩放。这种方式更好地尊重了权重矩阵的几何结构，在理论上具有更优的优化性质。

在 DeepSeek-V4 中，嵌入模块、预测头模块、mHC 模块的静态偏置和门控因子以及所有 RMSNorm 模块的权重保留了 AdamW 优化器，所有其他模块均使用 Muon 进行更新。

与常规 Muon 不同，DeepSeek-V4 使用混合 Newton-Schulz 迭代进行正交化——无需真正计算 SVD（奇异值分解），通过迭代公式将矩阵近似正交化。其核心操作每次迭代执行：

![[Pasted image 20260509143023.png]]

$$Mk = a \cdot M{k-1} + b \cdot (M{k-1} M{k-1}^T) M{k-1} + c \cdot (M{k-1} M{k-1}^T)^2 M{k-1}$$

DeepSeek-V4 的"混合"之处在于分两阶段执行共 10 次迭代：

前 8 步：系数 (a, b, c) = (3.4445, -4.7750, 2.0315)，让矩阵的奇异值快速收敛到 1 附近；
后 2 步：切换到系数 (2, -1.5, 0.5)，将奇异值精确稳定在 1。

这种"先快速粗调、再精细校准"的策略，兼顾了收敛速度与数值稳定性。

值得一提的是，由于 DeepSeek-V4 的注意力架构允许直接对注意力查询和 KV 条目应用 RMSNorm，有效防止了注意力 logits 爆炸，因此在 Muon 优化器中无需采用 QK-Clip 技术。

小道消息：Kimi K2（月之暗面）用 Muon 训了 15.5T token，零崩溃。这也是 DeepSeek 跟进 Muon 的原因之一。

二、通用基础设施：让算法跑得起来的工程底座

架构创新需要强大的工程基础设施才能落地。这一章节介绍了 DeepSeek 支撑 V4 高效训练与推理的几项关键基础设施。

1. 专家并行中的细粒度通信-计算重叠

这一章节的重点发现是：在 MoE 层中，通信延迟可以有效地隐藏在计算之下。

为此，DeepSeek 提出了一种细粒度的 EP（专家并行）方案，将通信和计算融合到一个流水线化的核函数中，实现通信与计算的重叠，从而在较低带宽环境下仍能保持高效的推理与训练。

![[Pasted image 20260509143047.png]]

DeepSeek 给出了一个具体的量化平衡条件：每个 GBps 的互连带宽足以隐藏 6.1 TFLOP/s 计算带来的通信。这一发现对当前受制于先进制程和互联带宽瓶颈的国产 GPU 而言，具有重大战略意义：

降低对极致互联带宽的依赖：传统观点认为高性能 MoE 必须搭配超高速片间互联（如 NVLink），DeepSeek 证明"适度带宽即可支撑高效训练推理"。国产 GPU 不必盲目追赶英伟达的顶级方案，而应追求"够用且平衡"的设计目标。
放大软件优化对硬件的补偿能力：在制程和物理带宽暂时落后的情况下，精细的流水线化、细粒度调度的核函数设计，可以显著弥补硬件的先天不足——"好算法 + 中等硬件"仍能产出有竞争力的系统性能。
为国产芯片设计提供量化参考：芯片厂商可根据目标算力合理设定互联带宽设计目标，避免过度追求高带宽而牺牲功耗与芯片面积。
提醒重视功耗余量与并发散热能力：DeepSeek 方案中计算、通信、存储高度并发，瞬时功耗较高。国产 GPU 更需在硬件设计中预留充足的功耗余量，并配套高效的散热方案，否则即使算法优化到位，也容易因功耗降频损失实际性能。

2. 使用 TileLang 进行灵活高效的核函数开发

DeepSeek 采用 TileLang（一种领域特定语言）高效开发了数百个融合核函数，替代了大量细粒度的 PyTorch 算子，兼顾开发效率与运行性能。关键技术创新包括：

主机代码生成：将运行时检查从 Python 移到生成的主机代码，将每次调用开销从几十微秒降至 1 微秒以内，解决了 CPU 端编排瓶颈；
SMT 求解器集成：利用 Z3 进行形式整数分析，支持复杂张量索引的向量化、边界检查等优化，编译开销仅数秒；
数值精度与逐位可重现性：默认禁用快速数学优化，提供 IEEE 标准内置函数，使 TileLang 核函数可与 CUDA 基线实现位级相同的结果，且不牺牲性能。

3. 高性能批不变性和确定性核函数库

DeepSeek 构建了一套高性能、批不变性、确定性的核函数库，确保预训练、后训练、推理全流程逐位对齐，且性能开销极小。

批不变性（保证同令牌在不同批次位置输出逐位相同）：

注意力方面采用双核函数策略（单 SM 高吞吐 + 多 SM 缓解波量化）并确保累加顺序一致；
矩阵乘法方面用 DeepGEMM 替代 cuBLAS，放弃 split-k 但通过优化使性能不降甚至反超。

确定性（解决反向传播中因 atomicAdd 等导致的非确定性累加问题）：

注意力反向为每个 SM 分配独立累积缓冲区再全局归约；
MoE 反向通过令牌顺序预处理 + 缓冲区隔离；
mHC 小矩阵乘法采用分拆输出 + 后续确定性归约的策略。

4. FP4 量化感知训练

后训练阶段，DeepSeek 引入 FP4 量化感知训练（QAT），以降低推理时的内存占用并加速计算。主要应用于两处：

MoE 专家权重（显存主要来源）
CSA 索引器中的 QK 路径（加速长上下文注意力分数计算）

5. 训练框架

DeepSeek 在 V3 训练框架基础上，针对 V4 架构的三大新组件——Muon 优化器、mHC 和混合注意力机制——进行了关键工程优化，在保持高训练效率和稳定性的同时，解决了新增的内存、通信和计算挑战。

Muon 的高效实现：针对 Muon 需要完整梯度矩阵而与 ZeRO 分区冲突的问题，设计混合桶分配策略——密集参数用背包算法限区并填充（内存开销 <10%），MoE 参数展平后均匀分布。相同形状参数自动合并以批处理牛顿-舒尔茨迭代，并将 MoE 梯度量化到 BF16 使通信减半，配合两阶段归约（全交换 + FP32 局部求和）保证数值稳定性。

mHC 的经济高效实现：通过融合核函数、选择性重计算（避免重计算计算密集型操作）以及调整 DualPipe 流水线以适应新增通信，将 mHC 的挂钟时间开销控制在流水线阶段的 6.7% 以内。

长上下文注意力的上下文并行：针对 CSA/HCA 压缩导致序列长度不均、压缩跨边界的问题，设计两阶段通信——先跨秩传递尾部 KV，再全收集后重组填充，配合预计算可见范围或 top-k 选择器指定索引。

灵活激活检查点：实现张量级的自动微分检查点机制，开发者只需标注关键张量，框架自动追踪计算图、反向遍历找出最小重计算子图，并能自动去重共享存储的张量，兼顾细粒度内存控制与编程便利性。

6. 推理框架

DeepSeek 为混合注意力机制设计了专门的推理框架，并在 V4 上引入了一项重要创新：引入磁盘存储机制来加速共享前缀请求，以解决异构 KV 缓存的管理问题。

混合注意力机制产生了多种 KV 条目（不同压缩比的 CSA/HCA、SWA 的滑动窗口、以及未就绪压缩的尾部状态），DeepSeek 采用双层设计进行管理：

![[Pasted image 20260509143105.png]]

KV 缓存结构：

状态缓存：为每个请求分配固定大小缓存块，存放 SWA 最近 n_win 个令牌和未压缩尾部状态；
经典 KV 缓存：每个请求分配多个块，每块覆盖 lcm(m, m') 个原始令牌，分别产生 k1 个 CSA 压缩令牌和 k2 个 HCA 压缩令牌。同时通过稀疏注意力内核与缓存布局的协同设计，允许每块可变数量令牌而不损失性能。

磁盘 KV 缓存存储（消除共享前缀请求的重复预填充），提供三种策略：

策略	说明
全量 SWA 缓存	存储所有 SWA KV 条目，计算零冗余但磁盘访问模式不均衡
周期性检查点	每隔 `p` 个令牌存储检查点，在存储和重计算之间灵活权衡
零 SWA 缓存	不存储任何 SWA KV 条目，完全依靠重计算（需重算最后 `n_win·L` 个令牌）

CSA/HCA 的压缩 KV 条目则直接全量存储到磁盘，仅尾部不完整块需重计算。

三、预训练

1. 数据构建

DeepSeek-V4 在 V3 数据基础上，构建了更大规模、更多样化、更高质量的训练语料库。

数据规模与构成：总规模超过 32T 令牌，涵盖数学、代码、网页、长文档（科学论文、技术报告等）以及多语言数据。重点增强了编码能力（融入代理数据）和长尾文化知识的捕捉。

数据处理策略：继承 V3 的分词器（词汇表 128K）、令牌拆分和中间填充（FIM）策略，将不同来源文档打包以最小化截断。与 V3 不同的是，预训练阶段采用样本级注意力掩码，避免不同文档之间产生跨样本的注意力干扰。

2. 预训练设置

模型规格：V4 提供 Flash 和 Pro 两个版本，核心架构参数如下：

配置项	Flash	Pro
层数	43 层	61 层
CSA/HCA 压缩率	m=4 / m’=128	m=4 / m’=128
SWA 窗口	128	128
MoE 路由专家数	256（激活6）	384（激活6）
训练令牌数	32T	33T
峰值学习率	2.7e-4	2.0e-4

训练策略：采用 Muon + AdamW 混合优化器；批量大小渐进增长（Flash 最大 75.5M，Pro 最大 94.4M）；序列长度从 4K 逐步扩展至 1M。注意力策略：前 1T 令牌用密集注意力预热，序列达 64K 后引入稀疏注意力，先预热索引器再正式训练。

训练稳定性：针对损失尖峰问题提出两项技术：

预期路由：使用历史参数预计算路由索引，将骨干与路由解耦，动态触发时额外开销约 20%；
SwiGLU 截断：将线性分量限制在 [-10, 10]，门控分量上限 10，有效消除异常值且不影响性能。

3. 基础模型评估

DeepSeek-V4 系列基础模型在世界知识、语言理解与推理、编码与数学、长上下文四大维度的全面基准上进行了评估，并与 DeepSeek-V3.2 进行对比。

DeepSeek-V4-Flash-Base（激活 13B / 总 284B）：以远少于 V3.2（激活 37B / 总 671B）的参数，在大部分基准上实现超越，尤其在知识类和长上下文任务中优势明显，体现了架构、数据和训练优化的综合收益。
DeepSeek-V4-Pro-Base（激活 49B / 总 1.6T）：进一步实现近乎全面的性能领先，在 MMLU-Pro（73.5%）、Simple-QA（55.2%）、FACTS（62.6%）、LongBench-V2（51.5%）等挑战性基准上创下 DeepSeek 基础模型的新高。

四、后训练

1. 后训练流程

DeepSeek-V4 的后训练流程，核心变化是将混合强化学习阶段完全替换为策略内蒸馏（OPD），并围绕专家训练和推理能力优化进行了多项创新。

专家训练：通过微调 + GRPO 强化学习训练多个领域专家。引入三种推理努力模式（非思考 / 思考高 / 思考最大），通过长度惩罚和上下文窗口控制输出长度，并用 <think> 标签区分。摒弃传统标量奖励模型，改用生成式奖励模型（GRM），让 Actor 网络同时充当评估器，使推理与评判能力联合优化。

工程创新：

工具调用：采用基于 XML 的 |DSML| 格式，减少转义失败和调用错误；
交错思考：工具场景中保留全部推理历史（跨用户轮次），一般对话场景则丢弃，兼顾代理任务连贯性与上下文简洁；
快速指令：通过特殊令牌（如 <|action|>、<|query|>）并行处理辅助任务，复用 KV 缓存，显著降低首次令牌时间（TTFT）。

策略内蒸馏（OPD）：用十多个教师模型蒸馏出统一学生模型，通过反向 KL 散度（全词汇 logits 蒸馏，非令牌级估计）稳定梯度、忠实迁移知识，规避传统权重合并或混合 RL 的性能下降问题。

2. RL 和 OPD 基础设施

为支持大规模 RL 和 OPD（涉及超长上下文、十多个万亿参数教师模型），DeepSeek 在后训练基础设施上引入了五项关键工程优化：

FP4 量化集成：rollout 和推理阶段直接使用原生 FP4 权重加速、减少内存流量；训练阶段通过无损 FP4→FP8 转换复用现有 FP8 框架，无需修改反向传播。

全词汇 OPD 的高效教师调度：教师权重以类似 ZeRO 方式分片存储于分布式存储，按需加载。为避免存储完整 logits（词汇量 >100k），只缓存教师最后一层隐藏状态，训练时动态重建 logits。通过按教师索引排序样本，确保每个 mini-batch 每个教师头仅加载一次。KL 散度用专用 TileLang 核函数计算。

可抢占且容错的 Rollout 服务：实现令牌粒度的预写日志（WAL），每生成一个令牌立即追加。被抢占时保存 KV 缓存，恢复后继续解码；硬件故障时用 WAL 重放重建 KV 缓存。相比从头重新生成，既避免引入长度偏差，效率也更高。

为百万令牌上下文扩展 RL 框架：将 rollout 数据分解为轻量级元数据 + 重量级每令牌字段。元数据用于全局混洗和打包布局计算；每令牌字段通过共享内存加载器按需加载，消费后立即释放，显著降低内存压力。

代理 AI 沙箱基础设施（DSec）：生产级沙箱平台，管理数十万并发实例。四个执行基板（函数调用 / 容器 / microVM / fullVM）统一接口；通过分层按需存储实现快速镜像加载；通过页缓存去重、自旋锁优化等提升密度；维护全局排序轨迹日志，支持客户端快进、细粒度溯源和确定性重放，实现抢占安全恢复。

3. 标准基准评估

DeepSeek-V4 系列在知识、推理、代码、代理、长上下文等多个标准基准上进行了全面评估。

评估覆盖：涵盖知识推理（MMLU-Pro、GPQA、HLE、SimpleQA 等）、代码（LiveCodeBench、Codeforces）、数学（HMMT、IMOAnswerBench、Apex、形式数学）、长上下文（MRCR 1M、CorpusQA 1M）和代理任务（SWE 系列、Terminal Bench、BrowseComp、Toolathlon 等）。

核心结论：

DeepSeek-V4-Pro-Max：在开源模型中确立新 SOTA，知识类（SimpleQA-Verified 领先 20 个百分点）、代码（Codeforces 3206 分，排名人类第 23 位）、形式数学（Putnam-2025 达 120/120 满分）表现突出，部分指标追赶甚至持平闭源模型（GPT-5.4、Claude Opus 4.6）。
DeepSeek-V4-Flash-Max：以更小参数在代码和数学推理上超越此前开源最佳模型 K2.6-Thinking。
长上下文：128K 内检索高度稳定，1M 处仍强于 Gemini-3.1-Pro。
推理努力：最大模式（更长上下文 + 减少长度惩罚）在挑战性任务上显著优于高模式，且令牌效率比 V3.2 更高。

4. 真实世界任务性能

DeepSeek-V4 通过专有的内部指标，在真实世界任务上进行了评估，以弥合标准基准测试与实际用户体验之间的差距。

中文写作：DeepSeek-V4-Pro 在功能性和创意写作上均优于 Gemini-3.1-Pro（总体胜率 62.7% vs 34.1%，写作质量胜率 77.5%），但 Claude Opus 4.5 在最具挑战性的提示上仍保持优势。

搜索：检索增强搜索（RAG）上，V4-Pro 显著优于 V3.2，尤其在单值搜索和规划任务上；代理搜索在复杂任务上优于 RAG，且成本效率更高。

白领任务：在涵盖 13 个行业的企业生产力任务上，V4-Pro-Max 优于 Opus-4.6-Max（63% 非失败率），优势体现在任务完成度和内容质量（主动预判隐性意图、长文本连贯叙述），但在指令遵循和简洁摘要能力上仍有不足。

代码代理：在内部研发编码任务（PyTorch、CUDA、Rust 等）上，V4-Pro-Max（67%）显著优于 Claude Sonnet 4.5（47%），接近 Opus 4.5（70%）水平。开发者调查中，91% 倾向于将其作为主要编码模型，但也指出存在小错误、对模糊提示误解和过度思考等问题。

五、结论、局限性与未来方向

核心贡献

通过 CSA + HCA 混合注意力架构，实现了高效百万令牌上下文支持；
V4-Pro-Max 在知识、推理、代理任务上重新定义开源模型 SOTA，接近前沿闭源模型；
V4-Flash-Max 以高成本效益实现了与领先闭源模型相当的推理性能。

局限性

架构因保留大量验证组件而相对复杂，不够精简；
预期路由与 SwiGLU 截断虽有效缓解训练不稳定，但其原理尚未被充分理解。

未来方向

精简架构：删减冗余验证组件，追求更优雅的核心实现；
训练稳定性：深入研究基础问题，建立更原则性的方法，而非依赖经验性 trick；
新维度稀疏性：探索稀疏嵌入模块等新方向，进一步提升效率；
低延迟部署：优化长上下文场景的架构与系统，加速实际交互体验；
长期代理能力：加强长期多轮代理任务的处理能力；
多模态整合：引入图像、音频等多模态能力；
数据策略：改进数据策划与合成策略，增强模型的智能性、鲁棒性与实用性。

小结

DeepSeek V4 技术报告呈现的，是一场从架构到基础设施、从预训练到后训练的系统性工程创新。CSA/HCA 解决了"如何高效看长文"，mHC 解决了"如何更稳定地传信号"，Muon 解决了"如何更高效地更新权重"，而通信-计算重叠、TileLang、FP4 QAT 等工程手段则让这一切真正跑得起来。

百万令牌上下文从来不是单一技术的成果，它是算法与工程在每一个细节上精密咬合的结果。这份报告值得反复研读。

2026年 5月
一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31