Microsoft lance MAI, sa nouvelle famille de modèles d'IA maison

Lors du Build 2026, Microsoft a présenté MAI (pour Microsoft AI), une famille de sept modèles d’intelligence artificielle développés en interne. Raisonnement, code, génération d’images, transcription audio ou encore synthèse vocale, cette gamme couvre la plupart des usages actuellement recherchés autour de l’IA.

Jusqu’à présent, Microsoft s’appuyait principalement sur les modèles OpenAI pour alimenter ses différents services. Avec MAI, l’entreprise dispose désormais de ses propres modèles et compte bien se faire une place face à des acteurs déjà bien implantés comme OpenAI, Anthropic ou Google.

Les sept modèles d’IA de la famille MAI

On retrouve tout d’abord MAI-Réflexion-1le modèle de raisonnement présenté comme la vitrine technologique de cette nouvelle gamme.

Pour le développement de logiciels, Microsoft propose MAI-Code-1-Flashun modèle optimisé pour la génération de code et déjà intégré à GitHub Copilot ainsi qu’à Visual Studio Code.

La génération d’images est assurée par MAI-Image-2.5 et sa variante MAI-Image-2.5 Flash, capables de créer ou de modifier des images à partir d’une description textuelle ou d’une image existante.

Pour l’audio, Microsoft a révélé MAI-Transcribe-1.5un modèle de transcription prenant en charge 43 langues et conçu pour gérer également le vocabulaire technique ou spécialisé.

Enfin, la partie synthèse vocale s’appuie sur MAI-Voix-2 et MAI-Voice-2-Flash. Ces modèles peuvent générer des voix naturelles dans une quinzaine de langues et sont même capables d’adapter leur voix à partir d’un court échantillon audio fourni par l’utilisateur.

Microsoft précise que tous ces modèles ont été formés en interne à l’aide de données sous licence commerciale. L’entreprise insiste également sur le fait qu’aucun modèle tiers n’a été utilisé pour les former via des techniques de distillation, une pratique devenue courante parmi certains acteurs du secteur.

MAI-Thinking-1, le modèle phare de cette nouvelle gamme

Parmi les sept modèles annoncés, MAI-Thinking-1 occupe une place particulière. Il s’agit du premier véritable modèle de raisonnement développé par Microsoft.

Basé sur une architecture de types Mélange d’experts (MoE), il dispose de 35 milliards de paramètres actifs et d’une fenêtre contextuelle pouvant atteindre 256 000 tokens, l’équivalent d’un document d’environ 600 pages selon Microsoft.

Côté performances, les chiffres communiqués sont plutôt prometteurs. Sur SWE-Bench Pro, un benchmark utilisé pour évaluer les capacités des modèles de génie logiciel, MAI-Thinking-1 a obtenu un score de 52,8%, contre 53,4% pour Claude Opus 4.6.

Le modèle affiche également de bons résultats en mathématiques avec 97% de réussite à l’AIME 2025 et 94,5% à l’AIME 2026, deux benchmarks particulièrement suivis pour mesurer les capacités de raisonnement.

Tableau comparatif des performances du modèle MAI-Thinking-1 de Microsoft par rapport à GPT 5.4, Claude Opus 4.6 et DeepSeek sur plusieurs benchmarks STEM et de codage

Microsoft indique également que lors d’évaluations aveugles réalisées avec le partenaire indépendant Surge, les utilisateurs ont préféré les réponses de MAI-Thinking-1 à celles de Claude Sonnet 4.6 sur un large éventail de tâches.

Pour le moment, MAI-Thinking-1 est disponible en avant-première privée via Microsoft Foundry et sera bientôt proposé en avant-première publique dans MAI Playground.

Frontier Tuning : des modèles adaptés aux besoins métiers

Microsoft a également présenté Réglage des frontièresune nouvelle approche permettant aux entreprises d’adapter les modèles MAI à leurs propres besoins.

L’idée est de permettre à une IA d’apprendre directement des méthodes de travail utilisées au sein d’une organisation. Le modèle analyse les différentes étapes franchies pour accomplir une tâche, les décisions prises ainsi que les actions réalisées afin de mieux comprendre le fonctionnement spécifique de l’entreprise.

Selon Microsoft, les données utilisées pour cet apprentissage restent sous le contrôle de l’organisation concernée. Les entreprises peuvent ainsi entraîner un modèle sur leurs propres processus sans avoir à partager leur savoir-faire ou leurs données internes.

La firme de Redmond affirme également que cette approche permet d’améliorer les performances tout en réduisant les coûts. Microsoft cite notamment l’exemple d’un modèle MAI ajusté pour Excel qui atteindrait un niveau comparable au GPT 5.4 tout en étant jusqu’à dix fois plus performant.

L’entreprise évoque également un projet réalisé avec le cabinet de conseil McKinsey. Selon Microsoft, un modèle personnalisé aurait obtenu le meilleur taux de préférence parmi tous les modèles évalués, pour un coût environ dix fois inférieur.

Pour l’instant, ces chiffres proviennent directement de Microsoft et devront être confirmés par davantage de retours du terrain.

Prix et disponibilité

Microsoft a déjà commencé à déployer plusieurs modèles de la famille MAI auprès des développeurs et des entreprises.

Le modèle de raisonnement MAI-Thinking-1 est désormais disponible en avant-première privée via Microsoft Foundry. Une avant-première publique est également prévue prochainement au sein du MAI Playground. Toutefois, Microsoft n’a pas encore communiqué les tarifs qui seront appliqués pour son utilisation.

Pour la génération d’images, MAI-Image-2.5 est facturé 5 $ par million de jetons pour les entrées de texte, 8 $ pour les entrées d’images et 47 $ pour les sorties d’images. La version Flash MAI-Image-2.5 est plus abordable avec un prix de 1,75 $ par million de jetons pour les entrées de texte et d’image et de 33 $ pour les sorties d’image.

MAI-Transcribe-1.5 est disponible via Azure Speech pour 22 $ par million de caractères transcrits.

Microsoft indique également que plusieurs modèles de la famille MAI seront disponibles sur des plateformes tierces comme OpenRouter, Fireworks AI ou encore Baseten, en plus de leur intégration dans les services de l’entreprise.

Source : Microsoft