okooo澳客app 终比及DeepSeek V4:1.6万亿参数、百万高下文,牵手华为,价钱依然\"屠户级\"


出品 | 《立场》栏目
作家 | 袁宁
剪辑 | 丁广胜
DeepSeek-V4,终于来了。
这段时刻,行业节拍如故快到有些失真。新模子一波接一波,参数、榜单、价钱、长高下文、Agent、推理强度,险些每隔几天就要重排一次座席。越是在这种密集更新里,DeepSeek的千里默就越容易被放大。再重复融资、推广、下一阶段政策这些外围运筹帷幄,市集对它的期待,早就不仅仅“再发一个新模子”这样简单。
是以,V4此次上线,群众委果想知谈的其实是两件事:
第一,DeepSeek还在不在第一梯队里。
第二,它此次到底拿出了什么新东西。
4月24日,DeepSeek-V4预览版官宣上线,同步开源。
先说论断:V4不是一代靠“才智全面跃升”来界说我方的模子。官方示意,比较前代模子,DeepSeek-V4-Pro的Agent才智权贵增强。在Agentic Coding评测中,V4-Pro已达到面前开源模子最好水平,并在其他Agent 研究评测中通常弘扬优异。咫尺DeepSeek-V4已成为公司里面职工使用的Agentic Coding 模子,据评测反馈使用体验优于Sonnet 4.5,委派质料接近 Opus 4.6非想考花式,但仍与 Opus 4.6想考花式存在一定差距。
DeepSeek-V4-Pro 辞宇宙学问测评中,大幅当先其他开源模子,仅稍逊于顶尖闭源模子 Gemini-Pro-3.1。
在数学、STEM、竞赛型代码的测评中,DeepSeek-V4-Pro 卓越面前总共已公开评测的开源模子,得回了比肩宇宙顶级闭源模子的优异收获。


那 V4在作念什么?一句话:它把长高下文的成本结构澈底重写了一遍。100万 token 高下文成为标配,但单 token 的算力铺张反而大幅着落。这是一次基础智商级别的发布,为下一阶段的 test-time scaling 和长程 Agent 任务铺路。
两个版块、百万高下文、三档推理,DeepSeek此次最狠的照旧价钱
此次 V4一共两个版块。
V4-Pro 是旗舰版,总参数1.6T,激活参数49B;V4-Flash 是轻量版,总参数284B,激活参数13B。两者都原生支合手1M 高下文,同期支合手非想考花式和想考花式。

更进一步,每个模子又分红三档推理强度:Non-think、Think High、Think Max。也即是说,此次 DeepSeek 给出的不仅仅两个模子,而是一整套不错按场景分层调用的才智结构。

从居品上看,这个想路如故很明确了:Pro 负责冲才智上限,Flash 负责铺性价比;非想考负责成果,Max 负责榨干推理才智。
官方也径直说了,“从当今运行,一百万高下文将是 DeepSeek 总共官方职业的标配。”这句话名义上是在强调高下文长度,本色上更谬误的是它背后的意旨真理:DeepSeek 不是想把1M 当成一个展示参数,而是想把它作念成表率确立。
而表率确立能不行确立,要津从来都不是“写没写支合手1M”,而是成本。
此次 V4最值得瞩主观念方,也恰是在成本弧线。按照官方流露的数据,在1M 高下文成立下,V4-Pro 的单 token 推理 FLOPs 独一 V3.2的27%,KV Cache 独一10%;V4-Flash 更激进,永别压到10% 和7%。换句话说,固然高下文从128K 拉到了1M,表面上放大接近8倍,但单 token 的推理成本并莫得随着爆炸,反而被打了下来。

这少量其实比“百万高下文”自己更要津。因为昔日很长一段时刻,长高下文一直都更像一种才智展示:窗口越写越长,但真到本色调用时,价钱、延伸、显存压力都很出丑。V4此次委果想讲解的是,长高下文不一定只可作念成贵族确立,它不错被改形成可供大限制调用的基础才智。
这少量在价钱上体现得尽头径直。
V4-Pro 每百万 token 输入价钱是1元,输出是12元;V4-Flash 每百万 token 输入0.2元,输出2元。这个价钱一出来,基本上照旧阿谁闇练的 DeepSeek 立场。

也难怪不少用户第一响应照旧那句老话:低廉,并且强。

期间上动了三刀:瞩眼力、残差、后考验
V4最中枢的期间篡改在瞩眼力层。传统 Transformer 的瞩眼力机制里,每个 token 要和前边总共 token 算一遍相似度。高下文从10万拉到100万,盘算量增长的不是10倍,是100倍。
V4的作念法是把瞩眼力拆成两种,轮流叠用。一种叫 CSA(压缩稀少瞩眼力),先把每4个 token 的 KV 缓存合并成一条节录,再让每个 query 只在这些节录里挑出最研究的 top-k 条去算。既压缩了\"要看的内容\",又只挑\"值得看的\"去算。另一种叫 HCA(重压缩瞩眼力),okooo澳客压缩率更激进,把每128个 token 合并成一条,但对剩下的节录作念稠密瞩眼力,不作念稀少挑选。两种轮流叠起来,再加一个滑动窗口分支处理近距离 token 之间的细节依赖。这是一套\"粗粒度 + 细粒度、稀少 + 稠密\"的组合拳。

把这套决策放进 DeepSeek 昔日两年的期间眉目里,变化就很明晰。V2、V3走的是参数稀少化,总参数很大,但每 token 只激活一小部分巨匠。V4在此除外又开了一条高下文稀少化的路,KV 压缩、top-k 遴荐、分层压缩率。这是 DeepSeek 第一次把\"稀少化\"的刀动到 Transformer 的中枢结构里。
除了瞩眼力层,V4还改了两处之前没动过的地方。一是把传统残差承接升级为 mHC(流形管制超承接),通过数学管制让深层荟萃的前向和反向传播更褂讪;二是用 Muon 优化器替代大部分模块原来用的 AdamW,继续更快,考验更稳。同期动瞩眼力、残差、优化器三处中枢结构,在 DeepSeek 的历史上是第一次。
比架构篡改更值得瞩主见是后考验要领的切换。V3.2用的是\"搀杂 RL\",一次性用强化学习优化多个主见。V4换成了\"分化再和洽\"的两步走。第一步,针对数学、代码、Agent、提醒奴隶等不同规模,每个规模单独考验一个巨匠模子——先用该规模高质料数据作念监督微调,再用 GRPO 算法作念强化学习,在各自的细分赛谈上跑到最优。第二步,用 On-Policy Distillation(OPD,在策略蒸馏)把十多个规模巨匠\"合成\"回一个和洽的学生模子。学生我方生成回复,然后对每个回复,去匹配\"最懂这个问题\"的巨匠的输出散播,通过 logit 级对皆把才智领受进来。通常地讲,即是把一堆尖子生的技艺蒸馏进覆没个东谈主脑袋里。

这套经由的工程难度极高:同期加载十多个万亿参数级的西席模子作念在线推理不施行。DeepSeek 的作念法是把总共西席权重和洽卸载到散播式存储,只缓存每个西席终末一层的 hidden state,考验时按西席索引排序样本,保证恣意时刻 GPU 显存里只驻留一个 teacher head。V4的才智不再靠一个模子重新学到底,而是先让不同巨匠在各自赛谈跑到顶,再把它们收编进覆没套权重。这种想路绕开了传统搀杂 RL 容易导致的才智相互扰乱问题。
在 Agent 场所,V4作念了几处专项优化:后考验阶段把 Agent 动作与数学、代码并排的寥寂巨匠场所单独考验;器具调用面貌从 JSON 换成带特等 token 的 XML 结构,镌汰转义装假;跨轮次推理思路在器具调用场景下完好保留,不再像 V3.2那样每轮清空。DeepSeek 还自建了一套名为 DSec 的沙箱平台,单集群可并发管理数十万个沙箱实例,特意复古 Agent 强化学习考验和评测。V4针对 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 居品进行了适配优化,在代码任务和文档生成任务上均有栽培。
融资、算力、昇腾,V4背后还有DeepSeek的下一皆施行题
V4此次发布,另一个绕不开的话题,是算力。
DeepSeek 在诠释里提到,受限于高端算力,面前 Pro 的职业模糊仍然有限,瞻望下半年昇腾950超节点批量上市之后,Pro 的价钱还会进一步大幅下调。它基本等于阐发了两件事。
第一,DeepSeek 此次确乎如故把国产算力协同放进隆重路子里了。
第二,V4面前的才智开释,还莫得弥散到位,背后依然受制于算力供给。
昇腾示意,其一直同步支合手DeepSeek系列模子,本次通过两边芯模期间玄虚协同,已毕昇腾超节点全系列居品支合手DeepSeek V4系列模子。基于DeepSeek V4-Pro模子,在8K输入场景,昇腾950超节点可已毕TPOT约20ms时单卡Decode 模糊4700TPS。DeepSeek V4-Flash模子,8K长序列输入场景下可已毕TPOT约10ms时单卡Decode 模糊1600TPS。

今寰宇午,16点,华为昇腾还将在B站直播DeepSeek V4在其平台的首发。

此前有音书称,DeepSeek 正以跳跃100亿好意思元估值寻求外部融资,贪图召募不少于3亿好意思元资金。对一家昔日长期强调寥寂性、相对克制本钱叙事的公司来说,这种变化自己就很值得玩味。因为当模子行业插足更高密度的竞争之后,期间路子再强,也很难脱离算力、东谈主才和现款流去单独运筹帷幄。
从这个角度看,V4其实也暴表露 DeepSeek 面前所处的位置:它在模子才智上仍然保合手强竞争力,尤其在开源和高性价比这条线上依然尽头杰出;但与此同期,它也如故插足一个必须更施行地处理算力和资源确立的问题阶段。
这点在多模态上体现得尤其显着。
此次 V4莫得推出多模态版块,而多模态如故越来越成为头部模子厂商的“标配动作”。淌若说 V4展现的是 DeepSeek 仍然有才智在文本模子和 Agent 才智上络续往前推,那么它暂时莫得补上的那一块,也通常诠释公司还得在资源管制下作念选用。
是以,若何相识此次 V4?淌若说昔日外界对 DeepSeek 的期待,是它还能不行再作念出一个“低廉又强”的模子;那么 V4给出的回复是:它不仅还在这样作念,并且正在试图把“低廉又强”这件事,进一步作念成一种结构性的才智。
至于再往后,DeepSeek 能不行补上多模态、能不行借融资处置算力瓶颈、能不行把 V4这套 preview 架构委果打磨锻真金不怕火,那即是下一阶段的问题了。
开云体育官方网站首页
备案号: