Microsoft a lancé son propre modèle d'IA pour la génération d'images.

image

Microsoft a lancé son propre modèle d'image générative, MAI-Image-2, qui s'est immédiatement hissé à la troisième place du classement mondial d'Arena.ai, derrière seulement les modèles de Google et d'OpenAI.

L'annonce a été faite par l'équipe IA Superintelligence. Le modèle est déjà disponible dans MAI Playground et est progressivement déployé sur Copilot et Bing Image Creator. L'API est actuellement réservée à une sélection de clients professionnels ; un accès plus large via Microsoft Foundry sera disponible ultérieurement.

Que peut faire MAI-Image-2 ?

Au cours du développement, l'équipe a interrogé des photographes, des designers et des artistes visuels. Il en résulte trois atouts majeurs : un photoréalisme saisissant, une génération fiable de texte au sein des images et une modélisation détaillée de scènes complexes.

En pratique, le modèle impressionne véritablement par sa gestion de l'éclairage naturel, des textures de surface et des relations spatiales. Il se classe cinquième dans le classement d'Arena.ai (Google reste en tête), mais l'écart est plus faible qu'on ne l'aurait cru. Notamment, lors de plusieurs tests, MAI-Image-2 surpasse GPT-Image en termes de qualité d'image et de précision du texte, malgré la deuxième place honorable d'OpenAI. Le classement affiché dans le tableau ne reflète pas toujours les performances réelles.

Les 10 meilleurs générateurs d'images. Source : arena.ai

La typographie mérite une mention spéciale : le modèle gère avec fiabilité les longs blocs de texte, les affiches et les panneaux sans la distorsion des caractères typique de la plupart des concurrents. Un test avec des caractères chinois a révélé une précision incomplète, mais le simple fait d’avoir tenté l’expérience et d’y être partiellement parvenu distingue MAI-Image-2 de ses concurrents.

Des limitations difficiles à ignorer

Le système de filtrage est ici plus strict que Google Images et DALL-E. Une demande de dessin humoristique représentant une araignée poursuivant une femme a été refusée car il s'agissait d'un dessin et non d'une photographie. Pour les illustrateurs travaillant sur des scènes intenses ou d'horreur, ce niveau de restriction constitue un véritable problème.

Les performances sont également limitées : une pause de 30 secondes est observée après chaque génération, et un blocage de 24 heures est appliqué après 15 images. Cela convient pour des expériences ponctuelles, mais pas pour un flux de travail continu.

Le seul format disponible est un carré 1:1. L'orientation horizontale et verticale n'est pas prise en charge. En 2026, il s'agit d'une lacune importante, notamment pour le contenu des réseaux sociaux, que Microsoft cible clairement avec son intégration Copilot. L'édition d'images, la recherche documentaire et l'agrandissement du cadre restent impossibles.

Pourquoi Microsoft avait besoin de son propre modèle

La logique stratégique est limpide. Pendant des années, l'entreprise a payé OpenAI pour la génération d'images dans Copilot et Bing Image Creator, tout en finançant Anthropic, son principal concurrent. Un modèle propriétaire réduit la dépendance vis-à-vis des partenaires, diminue les coûts à grande échelle et permet d'itérer sans avoir besoin de l'approbation d'un tiers.

MAI-Image-2 n'a pas besoin de surpasser les leaders du marché ; il lui suffit d'être suffisamment performant. Techniquement, c'est le cas. Le problème réside dans la conception du produit : des limitations strictes, un format de sortie restreint et un manque d'outils d'édition freinent actuellement le véritable potentiel du modèle.

Une fois que Microsoft aura assoupli ces restrictions et finalisé l'intégration à Copilot, MAI-Image-2 pourrait devenir un acteur majeur du marché. Actuellement, elle dispose d'une base technique solide et d'un potentiel de croissance évident.

L'avis de l'IA

Du point de vue de l'analyse des données machine, le système de filtrage strict de MAI-Image-2 n'est pas une limitation technique, mais une stratégie délibérée. Suite au scandale xAI Grok, qui a généré des milliers d'images indésirables par heure début 2026 et déclenché des enquêtes réglementaires dans plusieurs pays, Microsoft a fait le choix inverse. Des filtres stricts constituent une protection contre les risques d'atteinte à la réputation et les risques juridiques pour une entreprise ayant des contrats de plusieurs milliards de dollars avec des agences gouvernementales.

Autre point intéressant : l’absence de formats autres que le format 1:1 et d’outils d’édition bloque de fait le marché professionnel, segment pourtant bien établi chez Adobe Firefly et Midjourney. Microsoft privilégie actuellement la conquête du grand public avec Copilot plutôt que la concurrence avec les outils professionnels. Reste à savoir s’il s’agit d’une stratégie temporaire ou d’un choix délibéré.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *