苦等15個月,DeepSeek終於發布V4預覽版:全面解析
本文深入探討 DeepSeek V4 的技術特色、效能表現與使用指南,全面分析這款新一代大語言模型的核心優勢。內容以通俗易懂的風格撰寫,適合科技愛好者與開發者閱讀。
關鍵字:deepseek v4、deepseek official website、deepseek tutorial、deepseek v4 price。
發布日期:2026年4月25日 作者:DeepSeek HK

1. DeepSeek V4 預覽版正式發布
4月24日,DeepSeek 正式宣布推出 V4 預覽版。這次重大更新距離 V3.2 發布已有15個月,標誌著 DeepSeek 大模型技術路線圖上的又一次重要突破。
根據官方介紹,V4 系列包含兩款 MoE 模型:
- DeepSeek-V4-Pro:總參數 1.6T,啟動參數 49B
- DeepSeek-V4-Flash:總參數 284B,啟動參數 13B
兩款模型均原生支援 100 萬 token 上下文,代表長文本處理能力的質的飛躍。值得注意的是,在 1M 上下文設定下:
- V4-Pro 的每 token 推理 FLOPs 僅為 V3.2 的 27%,KV Cache 僅為 10%
- V4-Flash 更為極致,將這些指標分別降至 10% 與 7%
這意味著,上下文長度從 V3.2 的 128K 擴展到 V4 的 1M,增長近 8 倍,但每 token 運算需求卻大幅下降,實現了長上下文能力與推理效率的雙重突破。
DeepSeek 官方明確表示,V4 預覽版定位為基礎設施更新,主要重構長上下文成本結構,為下一階段的測試時擴展與長程任務鋪路。其當前能力水平仍落後於 GPT-5.4 與 Gemini-3.1-Pro,發展軌跡約比前沿閉源模型慢 3–6 個月。
2. 雙模型、三種推理模式:V4 的核心特色
2.1 模型參數與成本優勢
V4 系列最大的亮點是成本曲線的大幅優化。在 100 萬 token 上下文設定下:
- V4-Pro:每 token 推理 FLOPs 僅為 V3.2 的 27%,KV Cache 僅為 10%
- V4-Flash:每 token 推理 FLOPs 僅為 V3.2 的 10%,KV Cache 僅為 7%
這種效率提升大幅降低了百萬級上下文的推理成本,為長文本處理、文件分析等場景提供了經濟可行的解決方案。
2.2 API 定價體系
DeepSeek 延續一貫的高性價比定價策略:
- V4-Pro:每百萬輸入 token ¥1(快取命中)或 ¥12(快取未命中),每百萬輸出 token ¥24
- V4-Flash:每百萬輸入 token ¥0.2(快取命中)或 ¥1(快取未命中),每百萬輸出 token ¥2
2.3 三種推理強度等級
每款模型均提供三種推理模式,滿足不同場景需求:
- Non-think:直接輸出模式,回應速度最快
- Think High:常規深度思考模式,兼顧速度與品質
- Think Max:注入強指令,最大化上下文與輸出長度,釋放模型完整能力
Max 模式顯著提升模型表現:V4-Pro-Max 在 HLE 測試中分數從 34.5 提升至 37.7,在 Apex Shortlist 測試中從 85.5 提升至 90.2,代價是輸出 token 數量翻倍。
3. 基準測試效能表現
根據 DeepSeek 官方公布的測試數據,V4 系列在多項評測中表現優異:
3.1 知識與推理測試
- DeepSeek-V4-Pro-Max 在 Apex Shortlist(90.2%)與 Codeforces(Rating 3206)兩項硬核推理/編程任務中排名第一,展現極強的邏輯與算法能力
- Gemini-3.1-Pro-High 在 SimpleQA Verified(75.6%)中領先
- Claude 與 GPT 在不同項目中各有強項,整體差距較小
3.2 Agent 能力測試
- 四款模型在 SWE Verified 任務中表現持平(均達 80.6%)
- DeepSeek 在 Terminal Bench 2.0(67.9%)與 Toolathlon(51.8%)中表現突出,在複雜指令執行與工具調用場景中展現明顯優勢
官方表示,DeepSeek-V4-Pro 的 Agent 能力相比前代顯著提升,「使用者體驗優於 Sonnet 4.5,交付品質接近 Opus 4.6 非思考模式,但相較 Opus 4.6 思考模式仍有一定差距」。
3.3 世界知識與通用能力
- V4-Pro 在世界知識評測中顯著優於其他開源模型,僅略次於頂尖閉源模型 Gemini-Pro-3.1
- 在數學、STEM 與競賽程式碼評測中,V4-Pro 超越目前所有公開評測的開源模型,達到世界頂尖閉源模型水準
- 作為經濟型模型,V4-Flash 的知識儲備略少於 Pro 版本,但推理能力相近。憑藉更小的參數與啟動量,提供更快、更省錢的 API 服務
- 在 Agent 評測中,V4-Flash 在簡單任務上表現與 Pro 版本相當,但在高難度任務上仍有差距
4. 核心技術創新:重寫注意力機制
V4 最核心的技術變革在於注意力層,從根本上解決了長上下文推理的效率問題。
在傳統 Transformer 注意力機制中,每個 token 都需要與前面所有 token 計算相似度。當上下文從 100K 擴展到 1M 時,運算成本增加 100 倍,這正是長上下文無法普及的核心瓶頸。
V4 採用創新的雙注意力機制,以交錯層方式實現:
- CSA(Compressed Sparse Attention):先將每 4 個 token 的 KV cache 合併為單一摘要,再讓每個查詢只選取最相關的 top-k 摘要進行注意力計算,既壓縮了待處理內容,又只聚焦相關資訊
- HCA(Heavy Compressed Attention):採用更激進的壓縮策略,每 128 個 token 合併為一個摘要,然後對剩餘摘要進行密集注意力,不做稀疏篩選
兩種注意力機制交錯堆疊,並配合滑動窗口分支處理鄰近 token 的細節依賴關係,形成「粗粒度+細粒度、稀疏+密集」的組合方案。
從技術演進角度看,DeepSeek V2 與 V3 主要走參數稀疏化路線(總參數龐大但每 token 只啟動部分專家)。V4 在此基礎上開闢了上下文稀疏化新路徑(KV 壓縮、top-k 選取、分層壓縮率)。這是 DeepSeek 首次將「稀疏化」概念應用到 Transformer 的核心結構。
除注意力層外,V4 還有另外兩項重要架構改進:
- 將傳統殘差連接升級為 mHC(Manifold Constrained Hyperconnection),透過數學約束讓深層網路的前後向傳播更穩定
- 以 Muon 優化器取代大部分模組的 AdamW,實現更快的收斂與更穩定的訓練
這是 DeepSeek 首次同時改動 Transformer 的三大核心元件:注意力、殘差連接與優化器。
5. 後訓練範式創新:專家模型蒸餾
相比架構變革,V4 在後訓練方法上的創新更值得關注。
V3.2 採用「混合 RL」路線,同時以強化學習優化多個目標。V4 則採用兩步驟「先分化再統一」策略:
- 分化階段:針對數學、程式碼、Agent、指令遵循等不同領域,分別訓練獨立的專家模型。這些專家先以高品質領域資料進行監督微調,再以 GRPO 演算法進行強化學習,各專家在自身專長領域達到最佳表現
- 統一階段:採用 On-Policy Distillation(OPD)方法,將十餘個領域專家「合成」回統一的學生模型。學生生成答案後,對齊「最懂這題」的專家之輸出分布,透過 logit 層級對齊吸收專家能力
這種做法可以理解為將多個領域「尖子生」的能力蒸餾到單一模型中。為了解決同時載入十餘個萬億參數教師模型的工程難題,DeepSeek 將所有教師權重卸載至分散式儲存,只快取每個教師最後一層的隱藏狀態。訓練時按教師索引對樣本排序,確保任何時刻 GPU 記憶體中只有一個教師頭。
這種做法避免了傳統「混合 RL」常見的能力干擾問題,讓模型在多個領域都能達到頂尖水準。
6. Agent 能力專項優化
DeepSeek V4 針對主流 Agent 產品進行了專項適配與優化,在程式碼任務、文件生成等場景中表現提升。
V4 對 Agent 能力的專項優化包括:
- 後訓練時將 Agent 視為與數學、程式碼並列的獨立專家方向,單獨訓練
- 工具調用格式由 JSON 改為帶特殊 token 的 XML 結構,降低轉義錯誤率
- 跨輪推理軌跡在工具調用場景中完整保留,不再像 V3.2 那樣每輪清空
- 自建 DSec 沙箱平台,單叢集可同時並發管理數十萬個沙箱實例,支援 Agent 強化學習訓練與評估
官方表示,V4-Pro 的 Agent 能力「優於 Sonnet 4.5,交付品質接近 Opus 4.5 非思考模式,但相較 Opus 4.6 思考模式仍有一定差距」。

總結
DeepSeek V4 預覽版是一款技術創新突出的大模型。透過注意力機制重構與訓練範式創新,它在保持強大推理能力的同時,大幅降低了長上下文推理成本,為百萬級上下文的實際應用鋪平了道路。
無論是對需要強大推理能力的專業場景,或是追求性價比的大規模應用,V4 系列都提供了合適的選擇。如果你想體驗 DeepSeek V4 的強大能力,歡迎直接透過我們的平台使用。