Gemini 3.1 Flash-Lite : Google lance son modèle d'IA rapide et économique

Google annonce Gemini 3.1 Flash-Lite, son modèle d'IA le plus rapide et le plus rentable de la famille Gemini 3, disponible aujourd'hui en accès anticipé pour les développeurs via l'API Gemini dans Google AI Studio et sur Vertex AI pour les entreprises.

Logo Gémeaux 3

Le positionnement tarifaire est agressif : 0,25 $ par million de jetons d'entrée et 1,50 $ par million de jetons de sortie. À titre de comparaison, GPT-5 mini facture 0,25 $ d'entrée mais 2,00 $ de sortie, Claude 4.5 Haiku avec Extended Thinking plafonne à 1,00 $ d'entrée et 5,00 $ de sortie, et Grok 4.1 Fast horloges à 0,20 $ d'entrée et 0,50 $ de sortie. Gemini 2.5 Flash-Lite, le prédécesseur direct, affichait une entrée de 0,10 $ mais une sortie de seulement 0,40 $.

Gemini 3.1 Flash Lite Benchmarks de prix

Le rapport rapidité/qualité comme argument principal

Gemini 3.1 Flash-Lite atteint 363 jetons par seconde en vitesse de sortie selon le benchmark Artificial Analysis. C'est 2,5 fois plus rapide en termes de temps de première réponse et 45 % plus rapide en termes de débit de sortie que Gemini 2.5 Flash. Cela confirme l'avantage sur les concurrents directs : GPT-5 mini caps à 71 tokens/s, Claude 4.5 Haiku (Extended Thinking) à 108 tokens/s, et Grok 4.1 Fast (Reasoning) à 145 tokens/s. Seul Gemini 2.5 Flash-Lite (Dynamic) fait mieux à 366 jetons/s, mais à un prix de sortie quatre fois inférieur.

Jetons Flash-Lite Gemini 3.1

Dans les benchmarks de qualité, Gemini 3.1 Flash-Lite remporte la grande majorité des tests face à ses concurrents de la même catégorie. Il a obtenu un score de 86,9 % sur GPQA Diamond (connaissances scientifiques), 76,8 % sur MMMU Pro (compréhension multimodale), 84,8 % sur Video-MMMU, 88,9 % sur MMLU multilingue et 43,3 % sur SimpleQA. Sur LiveCodeBench (génération de code), GPT-5 mini prend la tête à 80,4 % contre 72,0 % pour Gemini 3.1 Flash-Lite. Lors du dernier examen de l'humanité, Grok 4.1 Fast est en tête avec 17,6 % contre 16,0 %. Le modèle a un score Elo de 1 432 au classement Arena.ai.

Niveaux de réflexion configurables

Gemini 3.1 Flash-Lite intègre des niveaux de réflexion configurables directement dans Google AI Studio et Vertex AI, une fonctionnalité qui permet aux développeurs d'ajuster le niveau de réflexion en fonction de la nature de la tâche. Pour les usages volumineux où le coût est une priorité (traduction, modération de contenus ou tri d'images à grande échelle), le modèle peut fonctionner en mode minimal. Pour des tâches plus complexes nécessitant un raisonnement approfondi (génération d'interface, création de simulation ou d'agents multi-étapes), le niveau de réflexion peut être augmenté.

Google affirme que les développeurs à accès anticipé sur AI Studio, Vertex AI, ainsi que des sociétés comme Latitude, Cartwheel et Whering utilisent déjà le modèle en production, soulignant sa capacité à traiter des entrées complexes avec « la précision d'un modèle de niveau supérieur » tout en suivant les instructions.