deepseek v4

等了15个月,DeepSeek终于出手了:V4预览版全面解读

DeepSeek HK 7 min read

本文围绕DeepSeek V4的技术特性、性能表现和使用指南展开,全面解析这款新一代大模型的核心优势,内容通俗易懂,适合技术爱好者和开发者参考。

关键词:deepseek v4、deepseek 官网、deepseek教程、deepseek v4价格。

发布日期:2026-04-25 作者:DeepSeek HK

开始使用deepseek

DeepSeek V4预览版全面解读

一、DeepSeek V4预览版正式发布

4月24日,DeepSeek正式官宣V4预览版上线。这是距离上一代V3.2发布15个月后的重大更新,标志着DeepSeek在大模型技术路线上的又一次重要突破。

根据官方介绍,V4系列包含两款MoE模型:

  • DeepSeek-V4-Pro:总参数1.6T,激活参数49B
  • DeepSeek-V4-Flash:总参数284B,激活参数13B

两款模型均原生支持100万token上下文,在长文本处理能力上实现了质的飞跃。值得关注的是,在1M上下文设置下:

  • V4-Pro的单token推理FLOPs只有V3.2的27%,KV Cache仅为10%
  • V4-Flash更为极致,分别降低到10%和7%

这意味着上下文长度从V3.2的128K扩展到V4的1M(放大近8倍)的同时,单token算力需求反而大幅下降,实现了长上下文能力和推理效率的双重突破。

DeepSeek官方明确表示,V4预览版的定位是基础设施更新,主要重构了长上下文成本结构,为下一阶段的test-time scaling和长程任务铺路,能力水平目前仍落后于GPT-5.4和Gemini-3.1-Pro,发展轨迹大约滞后前沿闭源模型3至6个月。

二、两款模型、三档推理:V4的核心特性

2.1 模型参数与成本优势

V4系列最大的亮点在于成本曲线的大幅优化。在1M token上下文设置下:

  • V4-Pro:单token推理FLOPs仅为V3.2的27%,KV Cache仅为10%
  • V4-Flash:单token推理FLOPs仅为V3.2的10%,KV Cache仅为7%

这种效率提升使得百万级上下文的推理成本大幅降低,为长文本处理、文档分析等场景提供了经济可行的解决方案。

2.2 API价格体系

DeepSeek延续了一贯的高性价比定价策略:

  • V4-Pro:每百万token输入1元(缓存命中)或12元(缓存未命中),输出24元
  • V4-Flash:每百万token输入0.2元(缓存命中)或1元(缓存未命中),输出2元

2.3 三档推理强度

每款模型都提供三种推理模式,满足不同场景需求:

  1. Non-think:直出模式,响应速度最快
  2. Think High:常规深度思考模式,平衡速度和质量
  3. Think Max:注入强指令,拉满上下文和输出长度,释放模型最大能力

其中Max模式能够显著提升模型表现:V4-Pro-Max在HLE测试中从Think High的34.5分提升到37.7分,在Apex Shortlist测试中从85.5分提升到90.2分,代价是输出token数量翻倍。

三、基准测试表现

根据DeepSeek披露的官方测试数据,V4系列在多项测评中表现优异:

3.1 知识与推理类测试

  • DeepSeek-V4-Pro-Max在Apex Shortlist(90.2%)和Codeforces(Rating 3206)两项硬核推理/编程任务中排名第一,展现了极强的逻辑与算法能力
  • Gemini-3.1-Pro-High在SimpleQA Verified(75.6%)中领先
  • Claude和GPT在各项目中互有胜负,整体差距不大

3.2 智能体能力测试

  • 四款模型在SWE Verified任务上表现持平(均达到80.6%)
  • DeepSeek在Terminal Bench 2.0(67.9%)和Toolathlon(51.8%)两项任务上表现突出,在复杂指令执行与工具调用场景下优势明显

官方表示,DeepSeek-V4-Pro的Agent能力相比前代显著增强,“使用体验优于Sonnet 4.5,交付质量接近Opus 4.6非思考模式,但仍与Opus 4.6思考模式存在一定差距”。

3.3 世界知识与通用能力

  • V4-Pro在世界知识测评中大幅领先其他开源模型,仅稍逊于顶尖闭源模型Gemini-Pro-3.1
  • 在数学、STEM、竞赛型代码测评中,V4-Pro超越当前所有已公开评测的开源模型,达到世界顶级闭源模型水平
  • V4-Flash作为经济型模型,知识储备略低于Pro版本,但推理能力接近,凭借更小的参数和激活值,能够提供更快捷、经济的API服务
  • 在Agent测评中,V4-Flash在简单任务上与Pro版本表现相当,但在高难度任务上仍有差距

四、核心技术创新:重写注意力机制

V4最核心的技术改动在注意力层,从根本上解决了长上下文推理的效率问题。

传统Transformer的注意力机制中,每个token需要和前面所有token计算相似度,上下文从10万扩展到100万时,计算量增长100倍,这是长上下文难以落地的核心瓶颈。

V4采用了创新的双注意力机制交替叠用的方案:

  1. CSA(压缩稀疏注意力):先将每4个token的KV缓存合并成一条摘要,再让每个query只在这些摘要中挑选最相关的top-k条计算注意力,既压缩了需要处理的内容,又只聚焦于相关信息
  2. HCA(重压缩注意力):采用更激进的压缩率,将每128个token合并成一条,对剩余摘要做稠密注意力,不做稀疏挑选

两种注意力机制交替叠加,再配合滑动窗口分支处理近距离token的细节依赖,形成了一套”粗粒度+细粒度、稀疏+稠密”的组合拳。

从技术演进路线来看,DeepSeek V2、V3主要走参数稀疏化路线(总参数大但每token只激活部分专家),V4在此基础上又开辟了上下文稀疏化的新路径(KV压缩、top-k选择、分层压缩率),这是DeepSeek首次将”稀疏化”思路应用到Transformer的核心结构中。

除了注意力层,V4还有两项重要的架构改进:

  1. 将传统残差连接升级为mHC(流形约束超连接),通过数学约束让深层网络的前向和反向传播更稳定
  2. 用Muon优化器替代大部分模块的AdamW,收敛更快,训练更稳定

这是DeepSeek首次同时对Transformer的注意力、残差、优化器三处核心结构进行改造。

五、后训练范式革新:专家模型蒸馏

相比架构改动,V4在后训练方法上的创新更值得关注。

V3.2采用的是”混合RL”方法,一次性用强化学习优化多个目标。V4换成了”分化再统一”的两步走策略:

  1. 分化阶段:针对数学、代码、Agent、指令跟随等不同领域,每个领域单独训练一个专家模型。这些专家先用领域高质量数据做监督微调,再用GRPO算法做强化学习,每个专家都在细分领域达到最优水平
  2. 统一阶段:采用On-Policy Distillation(OPD,在策略蒸馏)方法,将十多个领域专家”合成”回一个统一的学生模型。学生生成回答后,匹配”最懂这个问题”的专家的输出分布,通过logit级对齐吸收专家能力

这种方法可以理解为将多个领域的”尖子生”能力蒸馏到一个模型中。为了解决同时加载十多个万亿参数级教师模型的工程难题,DeepSeek将所有教师权重统一卸载到分布式存储,只缓存每个教师最后一层的hidden state,训练时按教师索引排序样本,保证任意时刻GPU显存中只驻留一个teacher head。

这种思路绕开了传统”混合RL”容易导致的能力互相干扰问题,让模型在多个领域都能达到顶尖水平。

六、Agent能力专项优化

DeepSeek V4针对主流Agent产品做了专门适配和优化,在代码任务、文档生成等场景下表现均有提升。

V4在Agent方向的专项优化包括:

  1. 后训练阶段将Agent作为与数学、代码并列的独立专家方向单独训练
  2. 工具调用格式从JSON换成带特殊token的XML结构,降低转义错误率
  3. 工具调用场景下跨轮次推理痕迹完整保留,不再像V3.2那样每轮清空
  4. 自建DSec沙箱平台,单集群可并发管理数十万个沙箱实例,支撑Agent强化学习训练和评测

官方表示,V4-Pro的Agent能力”优于Sonnet 4.5,交付质量接近Opus 4.5非思考模式,但仍与Opus 4.6思考模式存在一定差距”。

DeepSeek V4技术架构

总结

DeepSeek V4预览版是一款技术创新非常突出的大模型,通过注意力机制重构和训练范式革新,在保持强推理能力的同时,大幅降低了长上下文推理成本,为百万级上下文的实际应用铺平了道路。

无论是需要强推理能力的专业场景,还是追求性价比的大规模应用场景,V4系列都提供了合适的选择。如果你想体验DeepSeek V4的强大能力,欢迎通过我们的平台直接使用。

开始使用deepseek