Après 15 Mois d'Attente, DeepSeek Dévoile Enfin l'Aperçu V4 : Analyse Complète

Cet article explore les caractéristiques techniques, les performances et les directives d’utilisation de DeepSeek V4, fournissant une analyse complète des avantages essentiels de ce nouveau modèle de langage de grande taille. Le contenu est rédigé dans un style accessible adapté aux passionnés de technologie et aux développeurs.

Mots-clés : deepseek v4, site officiel deepseek, tutoriel deepseek, prix deepseek v4.

Date de publication : 25 avril 2026 Auteur : DeepSeek HK

Commencer à Utiliser DeepSeek

Analyse Complète de l'Aperçu DeepSeek V4

1. Lancement Officiel de l’Aperçu DeepSeek V4

Le 24 avril, DeepSeek a officiellement annoncé le lancement de V4 Preview. Cette mise à jour majeure intervient 15 mois après la sortie de V3.2, marquant une autre percée importante dans la feuille de route technologique des grands modèles de DeepSeek.

Selon l’introduction officielle, la série V4 comprend deux modèles MoE :

DeepSeek-V4-Pro : 1,6T de paramètres totaux, 49B de paramètres activés
DeepSeek-V4-Flash : 284B de paramètres totaux, 13B de paramètres activés

Les deux modèles prennent nativement en charge un contexte de 1 million de tokens, représentant un saut qualitatif dans les capacités de traitement de textes longs. Notamment, dans les paramètres de contexte de 1M :

Les FLOPs d’inférence par token de V4-Pro ne représentent que 27 % de ceux de V3.2, avec un KV Cache de seulement 10 %
V4-Flash est encore plus extrême, réduisant ces métriques à 10 % et 7 % respectivement

Cela signifie que bien que la longueur du contexte se soit étendue près de 8 fois, passant de 128K pour V3.2 à 1M pour V4, les exigences de calcul par token ont en fait diminué de manière significative, réalisant des percées tant en capacité de contexte long qu’en efficacité d’inférence.

Les responsables de DeepSeek indiquent clairement que V4 Preview est positionné comme une mise à jour d’infrastructure, reconstruisant principalement la structure des coûts du contexte long pour préparer la voie à l’étape suivante du scaling de temps de test et des tâches à longue portée. Son niveau de capacité actuel reste encore en retrait de GPT-5.4 et Gemini-3.1-Pro, avec une trajectoire de développement d’environ 3 à 6 mois derrière les modèles propriétaires de pointe.

2. Deux Modèles, Trois Modes d’Inférence : Caractéristiques Principales de V4

2.1 Paramètres du Modèle et Avantages de Coût

Le plus grand point fort de la série V4 est l’optimisation significative de la courbe de coût. Dans les paramètres de contexte de 1M tokens :

V4-Pro : Les FLOPs d’inférence par token ne représentent que 27 % de ceux de V3.2, le KV Cache n’étant que de 10 %
V4-Flash : Les FLOPs d’inférence par token ne représentent que 10 % de ceux de V3.2, le KV Cache n’étant que de 7 %

Cette amélioration d’efficacité réduit drastiquement le coût d’inférence pour un contexte de niveau million, fournissant une solution économiquement viable pour le traitement de textes longs, l’analyse de documents et d’autres scénarios.

2.2 Système de Tarification de l’API

DeepSeek poursuit sa stratégie de tarification cohérente à haute valeur :

V4-Pro : ¥1 par million de tokens d’entrée (cache hit) ou ¥12 (cache miss), ¥24 par million de tokens de sortie
V4-Flash : ¥0,2 par million de tokens d’entrée (cache hit) ou ¥1 (cache miss), ¥2 par million de tokens de sortie

2.3 Trois Niveaux d’Intensité d’Inférence

Chaque modèle offre trois modes d’inférence pour répondre aux différentes exigences des scénarios :

Non-think : Mode de sortie directe, vitesse de réponse la plus rapide
Think High : Mode de réflexion approfondie régulier, équilibrant vitesse et qualité
Think Max : Injecte des instructions fortes, maximise la longueur du contexte et de la sortie, libère les capacités complètes du modèle

Le mode Max améliore significativement les performances du modèle : les scores de V4-Pro-Max passent de 34,5 à 37,7 dans les tests HLE, et de 85,5 à 90,2 dans les tests Apex Shortlist, au prix d’un doublement du nombre de tokens de sortie.

3. Performances des Tests de Référence

Selon les données de test officielles publiées par DeepSeek, la série V4 offre d’excellentes performances dans plusieurs évaluations :

3.1 Tests de Connaissance et de Raisonnement

DeepSeek-V4-Pro-Max se classe premier dans Apex Shortlist (90,2 %) et Codeforces (Rating 3206), deux tâches de raisonnement/programming hardcore, démontrant des capacités de logique et d’algorithme extrêmement fortes
Gemini-3.1-Pro-High domine dans SimpleQA Verified (75,6 %)
Claude et GPT ont leurs forces respectives à travers différents projets, avec des écarts globaux faibles

3.2 Tests de Capacité d’Agent

Les quatre modèles offrent des performances égales dans les tâches SWE Verified (tous atteignant 80,6 %)
DeepSeek excelle dans Terminal Bench 2.0 (67,9 %) et Toolathlon (51,8 %), démontrant des avantages clairs dans les scénarios d’exécution d’instructions complexes et d’appel d’outils

Les responsables indiquent que les capacités d’Agent de DeepSeek-V4-Pro se sont significativement améliorées par rapport aux générations précédentes, « offrant une meilleure expérience utilisateur que Sonnet 4.5, avec une qualité de livraison proche du mode non-thinking d’Opus 4.6, bien qu’elle reste encore en retrait du mode thinking d’Opus 4.6 dans une certaine mesure. »

3.3 Connaissances du Monde et Capacités Générales

V4-Pro surpasse significativement les autres modèles open source dans les évaluations des connaissances du monde, n’étant que légèrement en retrait du modèle propriétaire de tête Gemini-Pro-3.1
En mathématiques, STEM et évaluations de code compétitif, V4-Pro surpasse tous les modèles open source actuellement évalués publiquement, atteignant le niveau des meilleurs modèles propriétaires mondiaux
En tant que modèle économique, V4-Flash dispose d’une réserve de connaissances légèrement inférieure à la version Pro, mais de capacités de raisonnement similaires. Avec des paramètres et valeurs d’activation plus petits, il fournit des services API plus rapides et plus rentables
Dans les évaluations d’Agent, V4-Flash offre des performances comparables à la version Pro sur les tâches simples, mais présente encore des écarts sur les tâches de haute difficulté

4. Innovation Technologique Centrale : Réécriture du Mécanisme d’Attention

Le changement technique le plus central de V4 se situe dans la couche d’attention, résolvant fondamentalement le problème d’efficacité de l’inférence en contexte long.

Dans les mécanismes d’attention Transformer traditionnels, chaque token doit calculer la similarité avec tous les tokens précédents. Lorsque le contexte s’étend de 100K à 1M, le coût de calcul augmente 100 fois, ce qui constitue le goulot d’étranglement central empêchant l’adoption généralisée du contexte long.

V4 adopte un mécanisme d’attention double innovant avec des couches alternées :

CSA (Compressed Sparse Attention) : Fusionne d’abord le cache KV pour chaque 4 tokens en un seul résumé, puis permet à chaque requête de sélectionner uniquement les top-k résumés les plus pertinents pour le calcul de l’attention, compressant à la fois le contenu à traiter et se concentrant uniquement sur les informations pertinentes
HCA (Heavy Compressed Attention) : Utilise une compression plus agressive, fusionnant chaque 128 tokens en un résumé, puis applique une attention dense sur les résumés restants sans sélection clairsemée

Les deux mécanismes d’attention alternent et s’empilent, combinés à une branche de fenêtre glissante qui gère les dépendances de détail entre les tokens proches, formant une approche combinée « grain grossier + grain fin, clairsemé + dense ».

Du point de vue de l’évolution technologique, DeepSeek V2 et V3 ont principalement suivi la voie de la sparsification des paramètres (grands paramètres totaux mais n’activant que des experts partiels par token). V4 ouvre un nouveau chemin de sparsification du contexte (compression KV, sélection top-k, taux de compression par couches) sur cette base. C’est la première fois que DeepSeek applique le concept de « sparsification » à la structure centrale du Transformer.

En plus de la couche d’attention, V4 comporte deux autres améliorations architecturales importantes :

Met à niveau les connexions résiduelles traditionnelles en mHC (Manifold Constrained Hyperconnection), rendant la propagation avant et arrière des réseaux profonds plus stable grâce à des contraintes mathématiques
Remplace AdamW par l’optimiseur Muon pour la plupart des modules, atteignant une convergence plus rapide et un entraînement plus stable

C’est la première fois que DeepSeek modifie simultanément trois composants centraux du Transformer : l’attention, les connexions résiduelles et l’optimiseur.

5. Innovation du Paradigme Post-Entraînement : Distillation de Modèles Experts

Par rapport aux changements architecturaux, l’innovation de V4 dans les méthodes de post-entraînement est encore plus remarquable.

V3.2 utilisait une approche de « RL mixte », optimisant plusieurs objectifs simultanément avec l’apprentissage par renforcement. V4 adopte une stratégie en deux étapes de « différencier puis unifier » :

Phase de Différenciation : Pour différents domaines tels que les mathématiques, le code, l’Agent et le suivi des instructions, entraîner un modèle expert séparé pour chaque domaine. Ces experts subissent d’abord un ajustement fin supervisé avec des données de domaine de haute qualité, puis un apprentissage par renforcement avec l’algorithme GRPO, chaque expert atteignant des performances optimales dans son domaine spécialisé
Phase d’Unification : Utilise la méthode On-Policy Distillation (OPD) pour « synthétiser » plus de dix experts de domaine en un modèle étudiant unifié. Après que l’étudiant génère une réponse, elle correspond à la distribution de sortie de l’expert qui « comprend le mieux ce problème », absorbant les capacités des experts par alignement au niveau des logits

Cette approche peut être comprise comme la distillation des capacités de plusieurs « meilleurs élèves » de domaine dans un seul modèle. Pour résoudre le défi d’ingénierie consistant à charger simultanément plus de dix modèles enseignants de paramètres trillionnaires, DeepSeek décharge tous les poids des enseignants vers le stockage distribué, ne mettant en cache que l’état caché de la dernière couche de chaque enseignant. Pendant l’entraînement, les échantillons sont triés par index d’enseignant, garantissant qu’une seule tête d’enseignant réside dans la mémoire GPU à tout moment.

Cette approche évite le problème d’interférence de capacités courant dans le « RL mixte » traditionnel, permettant au modèle d’atteindre des performances de niveau supérieur dans plusieurs domaines.

6. Optimisation Spéciale des Capacités d’Agent

DeepSeek V4 comprend des adaptations et optimisations spécialisées pour les produits Agent grand public, avec des performances améliorées dans les tâches de code, la génération de documents et d’autres scénarios.

Les optimisations spéciales de V4 pour les capacités d’Agent incluent :

Lors du post-entraînement, l’Agent est traité comme une direction experte indépendante aux côtés des mathématiques et du code, avec un entraînement séparé
Le format d’appel d’outil passe de JSON à une structure XML avec des tokens spéciaux, réduisant les taux d’erreur d’échappement
Les traces de raisonnement entre tours sont entièrement conservées dans les scénarios d’appel d’outils, n’étant plus effacées à chaque tour comme dans V3.2
Plateforme sandbox DSec auto-construite, avec un seul cluster capable de gérer simultanément des centaines de milliers d’instances de sandbox, supportant l’entraînement et l’évaluation de l’apprentissage par renforcement d’Agent

Les responsables indiquent que les capacités d’Agent de V4-Pro « sont meilleures que Sonnet 4.5, avec une qualité de livraison proche du mode non-thinking d’Opus 4.5, bien qu’elles restent encore en retrait du mode thinking d’Opus 4.6 dans une certaine mesure. »

Architecture Technique de DeepSeek V4

Résumé

DeepSeek V4 Preview est un grand modèle doté d’innovations technologiques exceptionnelles. Grâce à la reconstruction du mécanisme d’attention et à l’innovation du paradigme d’entraînement, il maintient de solides capacités de raisonnement tout en réduisant drastiquement les coûts d’inférence en contexte long, ouvrant la voie aux applications pratiques de contexte de niveau million.

Que ce soit pour des scénarios professionnels nécessitant de solides capacités de raisonnement ou des applications à grande échelle recherchant la rentabilité, la série V4 fournit des options appropriées. Si vous souhaitez découvrir les puissantes capacités de DeepSeek V4, nous vous invitons à l’utiliser directement via notre plateforme.

Commencer à Utiliser DeepSeek