DeepSeek-V4 Preview arrive avec une promesse très claire : offrir une très grande fenêtre contextuelle, des capacités avancées de codage et de raisonnement, tout en conservant une logique de coûts plus agressive que celle des modèles d’intelligence artificielle les plus lourds. La start-up chinoise structure donc son offre autour de deux variantes, Pro et Flash, désormais disponibles sur le Web et via l’API.

Le point le plus différenciant est sans doute la fenêtre contextuelle de 1 million de tokens, supportée aussi bien par les versions Flash que Pro. DeepSeek le présente comme une avancée suffisamment large pour envoyer une base de code entière ou de longs documents en une seule invite, avec l’ambition de rendre le modèle plus utile pour les conversations volumineuses et les tâches complexes.
Pour soutenir cette promesse, l’entreprise met en avant une Architecture d’Attention Hybride censée améliorer la mémoire des requêtes au fil du temps. DeepSeek associe également cette évolution à des gains plus larges en matière de raisonnement, de tâches agentiques et de benchmarks de code.
Versions Pro et Flash pour DeepSeek-V4
Les deux modèles partagent donc le même plafond de contexte, mais pas la même échelle. DeepSeek-V4 Pro affiche 1,6 billion de paramètres au total et 49 milliards de paramètres actifs, contre 284 milliards de paramètres au total et 13 milliards de paramètres actifs pour Flash.
Le tout repose sur une architecture Mixture-of-Experts (MoE) qui n’active qu’une petite partie d’experts pour chaque tâche. DeepSeek explique qu’il limite l’inférence à un maximum de 37 milliards de paramètres activés par requête afin de contenir les coûts par rapport à des modèles comparables de pointe.
Dans son positionnement, le modèle Pro représente la version la plus ambitieuse. DeepSeek lui attribue des capacités agentiques améliorées, une connaissance du monde au-delà de celle des modèles ouverts actuels tout en restant derrière Gemini 3.1 Pro dans ce domaine, ainsi qu’un niveau de raisonnement qui dépasserait les modèles ouverts en mathématiques, STEM (science, technologie, ingénierie et mathématiques) et en codage.
DeepSeek-V4-Flash
🔹 Les capacités de raisonnement se rapprochent étroitement de V4-Pro.
🔹 Fonctionne à égalité avec V4-Pro sur des tâches simples d’agent.
🔹 Taille de paramètre plus petite, temps de réponse plus rapides et tarification API très rentable.3/n pic.twitter.com/dAkP1f2aX0
— Recherche profonde (@deepseek_ai) 24 avril 2026
Flash joue une carte plus pragmatique. DeepSeek affirme qu’il est proche de Pro en raisonnement, qu’il est performant au même niveau sur des tâches agentiques simples et qu’il devient surtout beaucoup plus attractif en termes de tarification.
Une offensive pensée aussi pour les prix
Cette différence est immédiatement visible dans l’API. Pour DeepSeek-V4 Flash, le prix d’entrée tombe à 0,028 $ ou 0,14 $ en cas de manque de cache, avec un coût de sortie de 0,28 $. Pour DeepSeek-V4 Pro, les prix montent jusqu’à 0,145 $ ou 1,74 $ en entrée selon le cache, puis 3,48 $ en sortie.
DeepSeek cherche ainsi à opposer ChatGPT, Gemini et Claude non seulement à un modèle au contexte long, mais aussi à une gamme plus segmentée entre performance maximale et efficacité économique. La start-up chinoise revendique même de meilleurs scores que GPT-5.2 sur les benchmarks, tout en reconnaissant qu’elle a encore environ trois à six mois de retard sur les meilleurs modèles du marché.
DeepSeek-V4 est désormais disponible en open source sur Visage câlinsur le site DeepSeek et via son API mise à jour.






