Nach 15 Monaten Wartezeit enthüllt DeepSeek endlich V4 Preview: Umfassende Analyse

Dieser Artikel untersucht die technischen Merkmale, die Leistung und die Nutzungsrichtlinien von DeepSeek V4 und bietet eine umfassende Analyse der Kernvorteile dieses neuen großen Sprachmodells. Der Inhalt ist in einem zugänglichen Stil verfasst und eignet sich sowohl für Technikbegeisterte als auch für Entwickler.

Schlüsselwörter: deepseek v4, deepseek offizielle website, deepseek tutorial, deepseek v4 preis.

Veröffentlichungsdatum: 25. April 2026 Autor: DeepSeek HK

DeepSeek jetzt nutzen

DeepSeek V4 Preview Umfassende Analyse

1. DeepSeek V4 Preview offiziell gestartet

Am 24. April gab DeepSeek offiziell den Start von V4 Preview bekannt. Dieses große Update kommt 15 Monate nach der Veröffentlichung von V3.2 und markiert einen weiteren wichtigen Durchbruch in DeepSeeks Roadmap für große Modelltechnologien.

Laut offizieller Einführung umfasst die V4-Serie zwei MoE-Modelle:

DeepSeek-V4-Pro: 1,6 Billionen Gesamtparameter, 49 Milliarden aktivierte Parameter
DeepSeek-V4-Flash: 284 Milliarden Gesamtparameter, 13 Milliarden aktivierte Parameter

Beide Modelle unterstützen nativ einen Kontext von 1 Million Token, was einen qualitativen Sprung in der Langtextverarbeitungsfähigkeit darstellt. Bemerkenswert unter 1M-Kontexteinstellungen:

Die Inferenz-FLOPs pro Token von V4-Pro betragen nur 27% von V3.2, der KV-Cache nur 10%
V4-Flash ist noch extremer und reduziert diese Metriken auf jeweils 10% und 7%

Das bedeutet, dass sich die Kontextlänge von 128K bei V3.2 auf 1M bei V4 fast verachtfacht hat, die Rechenanforderungen pro Token jedoch tatsächlich deutlich gesunken sind, was sowohl bei der Langkontextfähigkeit als auch bei der Inferenzeffizienz einen Durchbruch erreicht.

DeepSeek-Vertreter stellen klar, dass V4 Preview als Infrastruktur-Update positioniert ist, das primär die Kostenstruktur für Langkontexte neu aufbaut, um den Weg für die nächste Stufe der Testzeit-Skalierung und Langstreckenaufgaben zu ebnen. Das derzeitige Leistungsniveau liegt immer noch hinter GPT-5.4 und Gemini-3.1-Pro zurück, mit einer Entwicklungstrajektorie, die etwa 3-6 Monate hinter den modernsten Closed-Source-Modellen liegt.

2. Zwei Modelle, drei Inferenzmodi: Kernmerkmale von V4

2.1 Modellparameter und Kostenvorteile

Das größte Highlight der V4-Serie ist die signifikante Optimierung der Kostenkurve. Unter 1M-Token-Kontexteinstellungen:

V4-Pro: Inferenz-FLOPs pro Token betragen nur 27% von V3.2, KV-Cache nur 10%
V4-Flash: Inferenz-FLOPs pro Token betragen nur 10% von V3.2, KV-Cache nur 7%

Diese Effizienzsteigerung reduziert die Inferenzkosten für Millionen-Level-Kontexte drastisch und bietet eine wirtschaftlich tragfähige Lösung für Szenarien wie Langtextverarbeitung und Dokumentenanalyse.

2.2 API-Preissystem

DeepSeek setzt seine bewährte High-Value-Preisstrategie fort:

V4-Pro: ¥1 pro Million Eingabe-Token (Cache-Treffer) oder ¥12 (Cache-Fehler), ¥24 pro Million Ausgabe-Token
V4-Flash: ¥0,2 pro Million Eingabe-Token (Cache-Treffer) oder ¥1 (Cache-Fehler), ¥2 pro Million Ausgabe-Token

2.3 Drei Inferenzintensitätsstufen

Jedes Modell bietet drei Inferenzmodi für unterschiedliche Szenarioanforderungen:

Non-think: Direktausgabemodus, schnellste Antwortgeschwindigkeit
Think High: Regulärer Tiefdenkmodus, Balance zwischen Geschwindigkeit und Qualität
Think Max: Injiziert starke Anweisungen, maximiert Kontext und Ausgabelänge, entfesselt die volle Leistungsfähigkeit des Modells

Der Max-Modus verbessert die Modellleistung erheblich: V4-Pro-Max-Scores steigen in HLE-Tests von 34,5 auf 37,7 und in Apex-Shortlist-Tests von 85,5 auf 90,2, auf Kosten einer Verdopplung der Ausgabe-Token-Anzahl.

3. Benchmark-Testleistung

Laut den offiziellen Testdaten, die von DeepSeek veröffentlicht wurden, schneidet die V4-Serie in mehreren Bewertungen hervorragend ab:

3.1 Wissens- und Reasoning-Tests

DeepSeek-V4-Pro-Max belegt den ersten Platz bei Apex Shortlist (90,2%) und Codeforces (Bewertung 3206), zwei anspruchsvollen Reasoning-/Programmieraufgaben, und demonstriert extrem starke Logik- und Algorithmusfähigkeiten
Gemini-3.1-Pro-High führt bei SimpleQA Verified (75,6%)
Claude und GPT haben ihre jeweiligen Stärken in verschiedenen Projekten, mit insgesamt geringen Unterschieden

3.2 Agent-Fähigkeitstests

Alle vier Modelle schneiden bei SWE Verified-Aufgaben gleich gut ab (alle erreichen 80,6%)
DeepSeek glänzt bei Terminal Bench 2.0 (67,9%) und Toolathlon (51,8%) und demonstriert klare Vorteile in Szenarien mit komplexer Anweisungsausführung und Tool-Aufruf

Offizielle Vertreter erklären, dass die Agent-Fähigkeiten von DeepSeek-V4-Pro im Vergleich zu früheren Generationen deutlich verbessert wurden und “ein besseres Benutzererlebnis als Sonnet 4.5 bieten, mit einer Auslieferungsqualität nahe dem Opus 4.6 Non-Thinking-Modus, obwohl sie dem Opus 4.6 Thinking-Modus noch in gewissem Maße hinterherhinken.”

3.3 Weltwissen und allgemeine Fähigkeiten

V4-Pro übertrifft andere Open-Source-Modelle bei Weltwissensbewertungen deutlich und hinkt dem führenden Closed-Source-Modell Gemini-Pro-3.1 nur geringfügig hinterher
In Mathematik, STEM und Competitive-Code-Bewertungen übertrifft V4-Pro alle derzeit öffentlich bewerteten Open-Source-Modelle und erreicht das Niveau der weltweit führenden Closed-Source-Modelle
Als wirtschaftliches Modell hat V4-Flash einen etwas geringeren Wissensschatz als die Pro-Version, aber ähnliche Reasoning-Fähigkeiten. Mit kleineren Parametern und Aktivierungswerten bietet es schnellere, kostengünstigere API-Dienste
Bei Agent-Bewertungen schneidet V4-Flash bei einfachen Aufgaben vergleichbar mit der Pro-Version ab, weist aber bei hochschwierigen Aufgaben noch Lücken auf

4. Kerntechnologische Innovation: Neuschreiben des Attention-Mechanismus

Die wichtigste technische Änderung von V4 liegt auf der Attention-Ebene und löst grundlegend das Effizienzproblem der Langkontext-Inferenz.

Bei traditionellen Transformer-Attention-Mechanismen muss jedes Token die Ähnlichkeit mit allen vorherigen Token berechnen. Wenn sich der Kontext von 100K auf 1M erweitert, steigen die Rechenkosten um das 100-fache, was der Hauptengpass ist, der die breite Einführung von Langkontexten verhindert.

V4 verwendet einen innovativen dualen Attention-Mechanismus mit alternierenden Schichten:

CSA (Compressed Sparse Attention): Fasst zunächst den KV-Cache für alle 4 Token zu einer einzigen Zusammenfassung zusammen, erlaubt dann jeder Abfrage, nur die relevantesten top-k Zusammenfassungen für die Attention-Berechnung auszuwählen, komprimiert den zu verarbeitenden Inhalt und konzentriert sich nur auf relevante Informationen
HCA (Heavy Compressed Attention): Verwendet eine aggressivere Komprimierung, fasst alle 128 Token zu einer Zusammenfassung zusammen und wendet dann dichte Attention auf die verbleibenden Zusammenfassungen ohne Sparse-Auswahl an

Die beiden Attention-Mechanismen alternieren und stapeln sich, kombiniert mit einem Sliding-Window-Zweig, der detaillierte Abhängigkeiten zwischen nahegelegenen Token verarbeitet, und bilden einen kombinierten Ansatz aus “grobkörnig + feinkörnig, spärlich + dicht”.

Aus der Perspektive der technologischen Evolution folgten DeepSeek V2 und V3 hauptsächlich dem Pfad der Parameter-Sparsifizierung (große Gesamtparameter, aber Aktivierung nur partieller Experten pro Token). V4 eröffnet auf dieser Basis einen neuen Pfad der Kontext-Sparsifizierung (KV-Komprimierung, top-k-Auswahl, geschichtete Komprimierungsraten). Dies ist das erste Mal, dass DeepSeek das Konzept der “Sparsifizierung” auf die Kernstruktur von Transformer angewendet hat.

Neben der Attention-Ebene gibt es in V4 zwei weitere wichtige architektonische Verbesserungen:

Aktualisierung traditioneller Residualverbindungen auf mHC (Manifold Constrained Hyperconnection), die die Vorwärts- und Rückwärtsausbreitung tiefer Netzwerke durch mathematische Beschränkungen stabiler machen
Ersetzen von AdamW durch den Muon-Optimierer für die meisten Module, um schnellere Konvergenz und stabilere Schulung zu erreichen

Dies ist das erste Mal, dass DeepSeek gleichzeitig drei Kernkomponenten von Transformer modifiziert hat: Attention, Residualverbindungen und Optimierer.

5. Innovation im Post-Training-Paradigma: Expertenmodell-Distillation

Im Vergleich zu Architekturänderungen ist die Innovation von V4 bei Post-Training-Methoden noch bemerkenswerter.

V3.2 verwendete einen “Mixed-RL”-Ansatz, der gleichzeitig mehrere Ziele mit Reinforcement Learning optimierte. V4 verfolgt eine zweistufige “Differenzieren dann Vereinigen”-Strategie:

Differenzierungsphase: Für verschiedene Domänen wie Mathematik, Code, Agent und Anweisungsbefolgung wird für jede Domäne ein separater Experte trainiert. Diese Experten durchlaufen zunächst ein überwachtes Feintuning mit hochwertigen Domänendaten, dann Reinforcement Learning mit dem GRPO-Algorithmus, wobei jeder Experte optimale Leistung in seinem Spezialgebiet erreicht
Vereinigungsphase: Verwendet die On-Policy Distillation (OPD)-Methode, um mehr als zehn Domänenexperten zurück in ein einheitliches Schülermodell zu “synthetisieren”. Nachdem der Schüler eine Antwort generiert hat, passt sie die Ausgabeverteilung des Experten an, der “dieses Problem am besten versteht”, und absorbiert Expertenfähigkeiten durch Logit-Level-Alignment

Dieser Ansatz kann als Destillation der Fähigkeiten mehrerer Domänen-”Spitzenschüler” in ein einziges Modell verstanden werden. Um die Herausforderung des gleichzeitigen Ladens von mehr als zehn Billionen-Parameter-Lehrermodellen zu lösen, entlädt DeepSeek alle Lehrergewichte in den verteilten Speicher und cached nur den Hidden State der letzten Schicht jedes Lehrers. Während des Trainings werden die Samples nach Lehrerindex sortiert, um sicherzustellen, dass sich zu jedem Zeitpunkt nur ein Lehrer-Head im GPU-Speicher befindet.

Dieser Ansatz vermeidet das bei traditionellem “Mixed-RL” häufige Problem der Fähigkeitsinterferenz und ermöglicht es dem Modell, Top-Level-Leistung in mehreren Domänen zu erreichen.

6. Spezialoptimierung der Agent-Fähigkeiten

DeepSeek V4 enthält spezialisierte Anpassungen und Optimierungen für Mainstream-Agent-Produkte mit verbesserter Leistung in Codeszenarien, Dokumentengenerierung und anderen Anwendungsfällen.

Die speziellen Optimierungen von V4 für Agent-Fähigkeiten umfassen:

Während des Post-Trainings wird Agent als unabhängige Expertenrichtung neben Mathematik und Code behandelt, mit separatem Training
Das Tool-Calling-Format wurde von JSON in eine XML-Struktur mit Spezialtoken geändert, was Escape-Fehlerraten reduziert
Cross-Turn-Reasoning-Spuren werden in Tool-Calling-Szenarien vollständig beibehalten und nicht mehr wie bei V3.2 jeden Turn gelöscht
Selbstgebaute DSec-Sandbox-Plattform, bei der ein einzelner Cluster gleichzeitig Hunderttausende von Sandbox-Instanzen verwalten kann und Agent-Reinforcement-Learning-Training und -Evaluierung unterstützt

Offizielle Vertreter erklären, dass die Agent-Fähigkeiten von V4-Pro “besser als Sonnet 4.5 sind, mit einer Auslieferungsqualität nahe dem Opus 4.5 Non-Thinking-Modus, obwohl sie dem Opus 4.6 Thinking-Modus noch in gewissem Maße hinterherhinken.”

DeepSeek V4 Technische Architektur

Zusammenfassung

DeepSeek V4 Preview ist ein großes Modell mit herausragenden technologischen Innovationen. Durch den Wiederaufbau des Attention-Mechanismus und die Innovation im Schulungsparadigma behält es starke Reasoning-Fähigkeiten bei und reduziert gleichzeitig die Langkontext-Inferenzkosten drastisch, was den Weg für praktische Anwendungen von Millionen-Level-Kontexten ebnet.

Ob für professionelle Szenarien, die starke Reasoning-Fähigkeiten erfordern, oder für groß angelegte Anwendungen, die Kosteneffizienz anstreben, die V4-Serie bietet passende Optionen. Wenn Sie die leistungsstarken Fähigkeiten von DeepSeek V4 erleben möchten, nutzen Sie sie direkt über unsere Plattform.

DeepSeek jetzt nutzen