苦等15個月，DeepSeek終於發布V4預覽版：全面解析

本文深入探討 DeepSeek V4 的技術特色、效能表現與使用指南，全面分析這款新一代大語言模型的核心優勢。內容以通俗易懂的風格撰寫，適合科技愛好者與開發者閱讀。

關鍵字：deepseek v4、deepseek official website、deepseek tutorial、deepseek v4 price。

發布日期：2026年4月25日作者：DeepSeek HK

立即使用 DeepSeek

DeepSeek V4 預覽版全面解析

1. DeepSeek V4 預覽版正式發布

4月24日，DeepSeek 正式宣布推出 V4 預覽版。這次重大更新距離 V3.2 發布已有15個月，標誌著 DeepSeek 大模型技術路線圖上的又一次重要突破。

根據官方介紹，V4 系列包含兩款 MoE 模型：

DeepSeek-V4-Pro：總參數 1.6T，啟動參數 49B
DeepSeek-V4-Flash：總參數 284B，啟動參數 13B

兩款模型均原生支援 100 萬 token 上下文，代表長文本處理能力的質的飛躍。值得注意的是，在 1M 上下文設定下：

V4-Pro 的每 token 推理 FLOPs 僅為 V3.2 的 27%，KV Cache 僅為 10%
V4-Flash 更為極致，將這些指標分別降至 10% 與 7%

這意味著，上下文長度從 V3.2 的 128K 擴展到 V4 的 1M，增長近 8 倍，但每 token 運算需求卻大幅下降，實現了長上下文能力與推理效率的雙重突破。

DeepSeek 官方明確表示，V4 預覽版定位為基礎設施更新，主要重構長上下文成本結構，為下一階段的測試時擴展與長程任務鋪路。其當前能力水平仍落後於 GPT-5.4 與 Gemini-3.1-Pro，發展軌跡約比前沿閉源模型慢 3–6 個月。

2. 雙模型、三種推理模式：V4 的核心特色

2.1 模型參數與成本優勢

V4 系列最大的亮點是成本曲線的大幅優化。在 100 萬 token 上下文設定下：

V4-Pro：每 token 推理 FLOPs 僅為 V3.2 的 27%，KV Cache 僅為 10%
V4-Flash：每 token 推理 FLOPs 僅為 V3.2 的 10%，KV Cache 僅為 7%

這種效率提升大幅降低了百萬級上下文的推理成本，為長文本處理、文件分析等場景提供了經濟可行的解決方案。

2.2 API 定價體系

DeepSeek 延續一貫的高性價比定價策略：

V4-Pro：每百萬輸入 token ¥1（快取命中）或 ¥12（快取未命中），每百萬輸出 token ¥24
V4-Flash：每百萬輸入 token ¥0.2（快取命中）或 ¥1（快取未命中），每百萬輸出 token ¥2

2.3 三種推理強度等級

每款模型均提供三種推理模式，滿足不同場景需求：

Non-think：直接輸出模式，回應速度最快
Think High：常規深度思考模式，兼顧速度與品質
Think Max：注入強指令，最大化上下文與輸出長度，釋放模型完整能力

Max 模式顯著提升模型表現：V4-Pro-Max 在 HLE 測試中分數從 34.5 提升至 37.7，在 Apex Shortlist 測試中從 85.5 提升至 90.2，代價是輸出 token 數量翻倍。

3. 基準測試效能表現

根據 DeepSeek 官方公布的測試數據，V4 系列在多項評測中表現優異：

3.1 知識與推理測試

DeepSeek-V4-Pro-Max 在 Apex Shortlist（90.2%）與 Codeforces（Rating 3206）兩項硬核推理／編程任務中排名第一，展現極強的邏輯與算法能力
Gemini-3.1-Pro-High 在 SimpleQA Verified（75.6%）中領先
Claude 與 GPT 在不同項目中各有強項，整體差距較小

3.2 Agent 能力測試

四款模型在 SWE Verified 任務中表現持平（均達 80.6%）
DeepSeek 在 Terminal Bench 2.0（67.9%）與 Toolathlon（51.8%）中表現突出，在複雜指令執行與工具調用場景中展現明顯優勢

官方表示，DeepSeek-V4-Pro 的 Agent 能力相比前代顯著提升，「使用者體驗優於 Sonnet 4.5，交付品質接近 Opus 4.6 非思考模式，但相較 Opus 4.6 思考模式仍有一定差距」。

3.3 世界知識與通用能力

V4-Pro 在世界知識評測中顯著優於其他開源模型，僅略次於頂尖閉源模型 Gemini-Pro-3.1
在數學、STEM 與競賽程式碼評測中，V4-Pro 超越目前所有公開評測的開源模型，達到世界頂尖閉源模型水準
作為經濟型模型，V4-Flash 的知識儲備略少於 Pro 版本，但推理能力相近。憑藉更小的參數與啟動量，提供更快、更省錢的 API 服務
在 Agent 評測中，V4-Flash 在簡單任務上表現與 Pro 版本相當，但在高難度任務上仍有差距

4. 核心技術創新：重寫注意力機制

V4 最核心的技術變革在於注意力層，從根本上解決了長上下文推理的效率問題。

在傳統 Transformer 注意力機制中，每個 token 都需要與前面所有 token 計算相似度。當上下文從 100K 擴展到 1M 時，運算成本增加 100 倍，這正是長上下文無法普及的核心瓶頸。

V4 採用創新的雙注意力機制，以交錯層方式實現：

CSA（Compressed Sparse Attention）：先將每 4 個 token 的 KV cache 合併為單一摘要，再讓每個查詢只選取最相關的 top-k 摘要進行注意力計算，既壓縮了待處理內容，又只聚焦相關資訊
HCA（Heavy Compressed Attention）：採用更激進的壓縮策略，每 128 個 token 合併為一個摘要，然後對剩餘摘要進行密集注意力，不做稀疏篩選

兩種注意力機制交錯堆疊，並配合滑動窗口分支處理鄰近 token 的細節依賴關係，形成「粗粒度＋細粒度、稀疏＋密集」的組合方案。

從技術演進角度看，DeepSeek V2 與 V3 主要走參數稀疏化路線（總參數龐大但每 token 只啟動部分專家）。V4 在此基礎上開闢了上下文稀疏化新路徑（KV 壓縮、top-k 選取、分層壓縮率）。這是 DeepSeek 首次將「稀疏化」概念應用到 Transformer 的核心結構。

除注意力層外，V4 還有另外兩項重要架構改進：

將傳統殘差連接升級為 mHC（Manifold Constrained Hyperconnection），透過數學約束讓深層網路的前後向傳播更穩定
以 Muon 優化器取代大部分模組的 AdamW，實現更快的收斂與更穩定的訓練

這是 DeepSeek 首次同時改動 Transformer 的三大核心元件：注意力、殘差連接與優化器。

5. 後訓練範式創新：專家模型蒸餾

相比架構變革，V4 在後訓練方法上的創新更值得關注。

V3.2 採用「混合 RL」路線，同時以強化學習優化多個目標。V4 則採用兩步驟「先分化再統一」策略：

分化階段：針對數學、程式碼、Agent、指令遵循等不同領域，分別訓練獨立的專家模型。這些專家先以高品質領域資料進行監督微調，再以 GRPO 演算法進行強化學習，各專家在自身專長領域達到最佳表現
統一階段：採用 On-Policy Distillation（OPD）方法，將十餘個領域專家「合成」回統一的學生模型。學生生成答案後，對齊「最懂這題」的專家之輸出分布，透過 logit 層級對齊吸收專家能力

這種做法可以理解為將多個領域「尖子生」的能力蒸餾到單一模型中。為了解決同時載入十餘個萬億參數教師模型的工程難題，DeepSeek 將所有教師權重卸載至分散式儲存，只快取每個教師最後一層的隱藏狀態。訓練時按教師索引對樣本排序，確保任何時刻 GPU 記憶體中只有一個教師頭。

這種做法避免了傳統「混合 RL」常見的能力干擾問題，讓模型在多個領域都能達到頂尖水準。

6. Agent 能力專項優化

DeepSeek V4 針對主流 Agent 產品進行了專項適配與優化，在程式碼任務、文件生成等場景中表現提升。

V4 對 Agent 能力的專項優化包括：

後訓練時將 Agent 視為與數學、程式碼並列的獨立專家方向，單獨訓練
工具調用格式由 JSON 改為帶特殊 token 的 XML 結構，降低轉義錯誤率
跨輪推理軌跡在工具調用場景中完整保留，不再像 V3.2 那樣每輪清空
自建 DSec 沙箱平台，單叢集可同時並發管理數十萬個沙箱實例，支援 Agent 強化學習訓練與評估

官方表示，V4-Pro 的 Agent 能力「優於 Sonnet 4.5，交付品質接近 Opus 4.5 非思考模式，但相較 Opus 4.6 思考模式仍有一定差距」。

DeepSeek V4 技術架構

總結

DeepSeek V4 預覽版是一款技術創新突出的大模型。透過注意力機制重構與訓練範式創新，它在保持強大推理能力的同時，大幅降低了長上下文推理成本，為百萬級上下文的實際應用鋪平了道路。

無論是對需要強大推理能力的專業場景，或是追求性價比的大規模應用，V4 系列都提供了合適的選擇。如果你想體驗 DeepSeek V4 的強大能力，歡迎直接透過我們的平台使用。

立即使用 DeepSeek