澳客app官网 DeepSeek V4阐述太详备了!484天换代之路全公开

DeepSeek V4 "迟到"半年,但发布后的好评如潮还在如潮。
中外热搜上了一整圈,科技媒体的版面今天都让给了它,OpenAI 也成了它的陪衬。


大家咋舌于 DeepSeek 在有限条件下作出要紧阻滞的创造力,也佩服其在 2026 年,还能鉴定遴荐开源蹊径的决心。


不错说,一时期信息多的有些超载,但多归多,干线就两条。
第一条,百万 token 高下文全面开源,KV cache 大幅缩减。
V4-Pro 和 V4-Flash,1.6 万亿参数 /2840 亿参数,高下文都是 1M。1M 场景下,V4-Pro 的单 token FLOPs 只须 V3.2 的 27%,KV cache 只须 10%。
亚马逊硬件师 GPD 示意,这意味着 DeepSeek 可能治理刻下的 HBM 枯竭问题。

第二条,国产芯片适配,仍是复古华为算力,瞻望下半年昇腾 950 超节点批量上市。

此外,大家最饶恕的,还莫过于在往日四个月中,DeepSeek 络续放出了几篇「可能进 V4」的论文,今天时代阐述开源了,不错对一下账。
mHC(流形管制超勾通):2025 年 12 月 31 日上传 arXiv,梁文锋挂名。进了 V4。
Engram(条件操心模块):1 月 DeepSeek 聚首北大发布。没进 V4,但在改日标的里被点名,留给 V5。
DualPipe:V3 老店员。连接用,针对 mHC 作念了诊疗。
Muon 优化器:从 Kimi 何处借的。V4 把 AdamW 替了,禁受绝大无数参数的教会。
四个预期,三个落地,一个给下一代。

举座架构
V4 这一代,是 DeepSeek 系列里动刀最多的一版。比拟 V3,V4 在三个场所作念了升级。
第一,引入 mHC(Manifold-Constrained Hyper-Connections)强化残差勾通。
第二,筹办 hybrid attention 架构,CSA 和 HCA 轮流换取,治理长文效果问题。
第三,给与 Muon 看成主优化器。

MoE 部分仍然用 DeepSeekMoE,MTP(Multi-Token Prediction)模块跟 V3 保握一致。
一些细节微调包括,affinity score 的激活函数从 Sigmoid 换成了 Sqrt ( Softplus ( · ) ) ,去掉了 routing target nodes 的数目管制,前几层 dense FFN 换成了用 Hash routing 的 MoE 层。
接下来,咱们一个个看。
mHC,给残差勾通加一层管制
残差勾通是何恺明2016 年在 ResNet 里忽视来的,十年没如何变过。模子一层一层堆,梯度沿着残差往回传,这是深度学习能 work 的前提。
但模子越来越深、参数越来越多之后,传统残差开动露怯,信号传递不稳,教会容易崩。

先说 Hyper-Connections(HC),这是 Kimi 团队之前忽视的想法。中枢是把残差流从一维形成 n_hc 条并行通说念,每层之间通过一个矩阵 B 来夹杂。
A、B、C 是三个线性映射。想法很优雅,很是于给残差流增多了一个新的 scaling 维度。但 DeepSeek 在堆多层时发现,HC 通常出现数值不剖析,教会说崩就崩。
V4 的作念法叫 mHC,把矩阵 B 管制到「双就地矩阵」的流形上(数学上叫 Birkhoff polytope),行和列都归一化为 1。这个管制带来两个刚正。
矩阵的谱范数自然不跨越 1,残差传播套上硬上限,爆不起来。
这种矩阵在乘法下是闭塞的,堆好多层也稳。
输入映射 A 和输出映射 C 则通过 Sigmoid 函数保证非负且有界,幸免信号相互对消。
终了上用 Sinkhorn-Knopp 迭代,轮流作念行归一化和列归一化,迭代 20 次不休。通盘过程对每一层都跑一遍。
听起来贵,但 DeepSeek 作念了 fused kernel,再相助遴荐性 recomputation,实测 mHC 带来的 wall-time 支拨遗弃在 overlapped pipeline 的 6.7%。
时代判断上,mHC 不是那种让东说念主咫尺一亮的架构革命,更像是一个「稳得住大模子」的工程补丁。但跟着模子深度和参数目连接往上推,这种补丁会形成刚需。
夹杂小心力机制
这是全篇论文最厚的一块,亦然「百万 token 效果」的中枢魔法所在。
V4 的小心力层不是一种,是两种轮流使用的结构,CSA(Compressed Sparse Attention)和 HCA(Heavily Compressed Attention)。
CSA 作念两件事,先压缩,再寥落遴荐。

第一步,KV 压缩。 每 m 个 token 的 KV entries,通过一个带学习权重的 attention-like 机制压成一个。
第二步,lightning indexer + top-k 遴荐。这部分承袭自 V3.2 的 DSA。对每个 query token,用一个轻量的 indexer 筹画它和每个压缩 KV 块的有关性分数。
第三步,core attention。 在选中的这 top-k 压缩 KV 块上作念 Multi-Query Attention,获得小心力输出。
第四步,grouped output projection。 因为 V4 把 head dimension c 设成了 512(比 V3.2 的 128 大得多),若是获胜把整个 head 的输出投影回 d 维会很贵,是以作念了分组投影,把 n_h 个 head 分红 g 组,每组先投影到一个中间维度 d_g,终末再合并投影回 d。
通盘 CSA 等于作念了两层压缩。第一层是序列长度压缩,n 形成 n/m。第二层是寥落遴荐,n/m 形成 top-k。对 1M token 的序列,原来需要 attend 1M 个 token,当今只需要 attend 1024 个压缩块。
HCA 的念念路更轻便巧诈,压得更狠,但不作念寥落。

压缩率 m ’ =128,每 128 个 token 压成一个。压缩过程也莫得 CSA 那样的 overlap,获胜每 m ’个一组压。然后对整个压缩后的 KV 作念 dense attention。
论文里莫得言反正传地阐述注解 CSA 和 HCA 为什么要配对使用,但读完通盘 architecture 章节,能看出它们的单干。
CSA 的压缩良善、靠寥落把关,允洽作念 token-level 的精熟检索。HCA 的压缩凶猛、保握 dense,允洽作念长距离的全局信号汇总。
V4 把两者层层轮流。Pro 有 61 层,Flash 有 43 层,CSA 和 HCA 一层一层往上叠。既不漏细节,也不被细节拖住。
此外,论文还流露了几个 trick。
Q/KV normalization。 CSA 和 HCA 在 core attention 之前,都对 query 和 KV entries 作念一次 RMSNorm,防护 attention logits 爆炸。
Partial RoPE。 只对 query 和 KV entries 的终末 64 维施加旋转位置编码,其余维度不动。
因为 KV entries 既作念 key 又作念 value,naive 的 RoPE 会让输出带上皆备位置信息,是以在 output 端也对应施加一个位置为 -i 的 RoPE 来对消,只保留相对位置信息。这是个难懂的工程处理。
Sliding window attention 看成扶持分支。
因为压缩小心力保证严格因果性,一个 query token 看不到我方压缩块内其他 token 的信息。为了抵偿近距离依赖,V4 相当加了一个 sliding window 分支,每个 query 除了看压缩 KV 以外,还能看最近 128 个 token 的 uncompressed KV。
Attention sink。 鉴戒 OpenAI 和 StreamingLLM 的 trick,在 attention 分母上加一个 learnable sink logit,允许 attention score 总数不等于 1。
这在长序列里尤其灵验,能幸免模子被动把小心力均派。
Muon 优化器
V4 教会中绝大无数参数优化用的不是 AdamW,okooo澳客是 Muon。
Muon 是前几年 Keller Jordan 那批东说念主(他当今在 OpenAI)在小模子上考据过的优化器,基于矩阵正交化。
它只优化 2D 参数矩阵,其他参数(embedding、prediction head、RMSNorm 权重、mHC 的静态偏置等)照旧走 AdamW。
Muon 在 LLM 范围上的第一次大范围考据是 Kimi K2。 2025 年,Moonshot 用 Muon(加上他们我方的 QK-Clip 变种,合称 MuonClip)训了一个 1T 参数的 MoE,15.5T token,全程零崩溃。
当今 DeepSeek 也用上了。不外他们作念了我方的版块,hybrid Newton-Schulz 迭代,10 步分两段。
前 8 步用激进悉数,快速把奇异值推向 1 隔邻。
后 2 步用良善悉数,精准地把奇异值剖析在 1。
这里有个细节值得小心。Kimi 用 Muon 需要 QK-Clip 来防护 attention logits 爆炸,DeepSeek 没用这招。他们的原理是,V4 的小心力架构允许获胜对 query 和 KV 作念 RMSNorm,从源泉把爆炸的可能压住了。
两家公司,合并个优化器,治理合并个问题,走的是两条路。这种跨团队的时代分享和各自演化,是 2026 年开源社区最特意义的一面。
模子教会
DeepSeek-V4 系列在预教会数据量上终清醒翻倍。
对比 V3 仅用 14.8T Token 教会,V4-Flash 与 V4-Pro 的数据挥霍量分袂达到了 32T 和 33T。教会数据量整整翻了一倍多(增长约 1.2 倍)。
数据组成上,长文档数据单独 curate,优先收录科学论文和时代阐述这类有学术价值的长材料。tokenizer 仍用 V3 的 128K 词表。
在模子架构上,V4-Flash,43 层,荫藏维度 4096。
MoE 用 1 个 shared expert + 256 个 routed experts,每 token 激活 6 个。总参数 284B,激活 13B。
V4-Pro,61 层,荫藏维度 7168。MoE 用 1 个 shared expert + 384 个 routed experts,每 token 激活 6 个。总参数 1.6T,激活 49B。
教会诊疗上,序列长度走四段,4K → 16K → 64K → 1M。sparse attention 不是重新掀开,前 1T token 用 dense attention 作念 warmup,扩到 64K 时才 introduce sparsity。
论文示意,教会中间出过一次严重的 loss spike,DeepSeek 摸到两个土概念,Anticipatory Routing 和 SwiGLU Clamping。论文原话相当敦厚,这两个 trick work,但底层机理仍是 open question。
一个教会了两个万亿参数 MoE 的团队公开承认「咱们不知说念为什么这两个 trick 管用」,在 2026 年仍是是一件挺出奇的事。
在后教会阶段,V4 这一代作念了一次武艺论替换,传统的 mixed RL 阶段被 On-Policy Distillation(OPD)完全替代。
经过分两步。
第一步,训 domain specialist。
数学、代码、agent、辅导扈从四个范畴,各自零丁训一个 expert。先 SFT 打底,再用 GRPO 作念 domain-specific RL。V4 还引入了三档 reasoning effort mode,Non-think、Think High、Think Max,每档输出长度不同。
第二步,OPD 合并。
十几个 expert 通过 on-policy distillation 合进一个长入的 student。student 我方 rollout,最小化 reverse KL 向对应范畴的 expert 对皆。数学任务向数学 expert 靠,编程任务向编程 expert 靠。
武艺论听起来很优雅。但工程上装不下,十几个 teacher 每个都是万亿级,vocab size 跨越 10 万。
V4 的作念法是 teacher 权重 offload 到散布式存储按需加载,只缓存 hidden states 不 materialize logits,按 teacher 排序样本保证每个 mini-batch 只加载一个 teacher head。
一套看似优雅的后教会武艺论,背后是一堆「不这么作念就装不下」的工程和谐。
实验论断
在实验部分,有三件最值得说的事。

开源开头。
SimpleQA-Verified 上 V4-Pro-Max 拿到 57.9,K2.6 是 36.9,GLM-5.1 是 38.1。开头整个开源模子 20 个百分点。
匹敌闭源。
Codeforces rating 3206,跨越了 GPT-5.4 的 3168 和 Gemini-3.1-Pro 的 3052,在东说念主类选手榜单上名挨次 23。开源模子匹敌闭源泉部,此次是确切匹敌了。
差距仍在。
HLE 上 V4-Pro-Max 37.7,Gemini-3.1-Pro 44.4,Claude-Opus-4.6-Max 40.0。1M MRCR 上 V4 优于 Gemini 但光显不如 Claude。学问类和最前沿的推理任务仍有 3-6 个月的 gap。
论文中,DeepSeek 示意:
DeepSeek-V4-Pro-Max 在程序推理 benchmark 上优于 GPT-5.2 和 Gemini-3.0-Pro,但略落伍于 GPT-5.4 和 Gemini-3.1-Pro。这标明其发展轨迹大致落伍最前沿闭源模子 3 到 6 个月。
Flash-Max 可能是这篇论文最被低估的一部分。
V4-Flash-Max 只激活 13B 参数,推理任务上能打平 GPT-5.2 和 Gemini-3.0-Pro,代码和数学以致跨越 K2.6-Thinking。
若是只看激活参数目,这是目前效果最极致的推理模子之一。
实际任务里最值得提的是里面 R&D 代码 benchmark,V4-Pro-Max 67%,接近 Claude Opus 4.5 的 70%。
85 东说念主的里面建造者调研里,91% 示意 V4-Pro 不错看成主力 coding 模子。
在官方的推文中,也侧面印证了这个说法:
目前 DeepSeek-V4 已成为公司里面职工使用的 Agentic Coding 模子,据评测反应使用体验优于 Sonnet 4.5,委派质地接近 Opus 4.6 非念念考模式,但仍与 Opus 4.6 念念考模式存在一定差距。
在论文的终末,DeepSeek 也示意:
为了追求极致的长文效果,V4 系列采用了一个相对激进的架构筹办。为了镌汰风险,咱们保留了许多已老师证过的组件和 trick,这让架构变得相对复杂。在改日的迭代中,咱们将进行更全面、更有原则的参谋,把架构精简到最骨子的部分。
改日标的几条,探索新维度的 sparsity(点名了 Engram 那条线)、低蔓延架构、永劫程多轮 agentic 任务、多模态、更好的数据 curation。
有个蛮特意义的小细节,在模样化数学评测中,DeepSeek 也皮了一下友商:
咱们在 K2.6 和 GLM-5.1 的部分条款留空了,因为它们的 API 太忙,没法实时复返咱们查询的隔绝。

太火了,即是说。
讲究
把 V4 放回 DeepSeek 的好意思满旅途里看,它不是在追逐 frontier。
往日三年的趋势相当澄澈。闭源大厂追求的是能力上限,谁家的模子能在 HLE 上拿更高分。DeepSeek 追求的一直是另一条线,雷同能力下的本钱下限。
V4 把这件事推到了百万 token。一个 1M 的高下文,在 V3.2 的本钱结构下是不行握续的,KV cache 会把显存吃光。V4 把它压到 V3.2 的 10%,本钱弧线霎时打直了。

那隔绝会若何呢。一个很长的 agent 会话,一份反复回读的时代文档,一次跨多仓库的重构,这些往日要切窗口、要加 retrieval、要经心管理高下文的场景,在 V4 这里形成了「全塞进去望望再说」。
DeepSeek 这几年作念的事,底层动作很澄澈,一直在删。从 V2 的 MLA 开动,每一代都在删 KV cache、删激活参数、删小心力筹画量。
删到 V4,单 token 推理 FLOPs 砍到四分之一,KV cache 砍到十分之一。
百万 token 不是一个新的能力,是合并个高下文窗口被压到不错承担的本钱。
One more thing
论文的收尾有一份长长的孝顺者名单。
梁文锋在其中。

其中有不少带星号的名字,是仍是离开团队、但仍然对 V4 作念出过进犯孝顺的参谋者。
往日这一年,对于 DeepSeek 东说念主才流失的音书传过好几轮。但这份名单把他们的名字和 V4 这个大家等了整整一年多的模子,绑在了合并张纸上。
每一个东说念主都算数,每一天也都算数。
V4 发布今日,DeepSeek 参谋员陈德里在 x 上转发并写说念:
DeepSeek-V3:2024 年 12 月 26 日。
DeepSeek-V4:2026 年 4 月 24 日。
484 天后,咱们谦和地分享这份爱心的奇迹。
一如既往,咱们遥远坚握历久想法和全民开源。
AGI 属于每个东说念主。

参考勾通
[ 1 ] https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro
[ 2 ] https://arxiv.org/pdf/2512.24880
一键三连「点赞」「转发」「小心心」
接待在挑剔区留住你的想法!
— 完 —
� � 谁会代表 2026 年的 AI?
龙虾爆火,带动一波 Agent 与繁衍家具海浪。
但真适值得历久关注的 AI 公司和家具,约略不啻于此。
若是你正在作念,或见证着这些变化,接待陈说。
让更多东说念主看见你。� � https://wj.qq.com/s2/25829730/09xz/
一键关注 � � 点亮星标
科技前沿施展逐日见澳客app官网
开云体育官方网站 - KAIYUN
备案号: