Gemini Embedding 2 : Google lance son IA qui unifie texte, image, vidéo et audio

Google révélé Gemini Embedding 2, son premier modèle d’intégration d’IA nativement multimodal. Contrairement aux modèles génératifs comme Gemini 3, un modèle d’intégration ne produit pas de contenu : il convertit différents éléments (texte, image, vidéo, audio) en vecteurs mathématiques qu’une machine peut analyser pour comprendre la signification et les relations entre les données.

Intégration des Gémeaux 2

Une architecture unifiée qui simplifie les tâches

La première génération du modèle était limitée au texte. Gemini Embedding 2 intègre désormais cinq éléments dans un espace vectoriel unifié, avec prise en charge de 100 langues

Les limites par élément sont les suivantes :

Texte : jusqu’à 8 192 jetons par requête
Images : jusqu’à six images par demande (PNG/JPEG)
Vidéo : jusqu’à 120 secondes en MP4/MOV
Audio : ingestion directe sans transcription intermédiaire
Documents : PDF jusqu’à six pages

Le principal intérêt réside dans la possibilité de combiner plusieurs éléments dans une seule requête, par exemple une image accompagnée de texte, pour capturer les relations sémantiques entre différents types de médias. Google indique que le modèle « simplifie l’accès complexe et améliore une grande variété de tâches multimodales en aval, depuis la génération augmentée de récupération (RAG) et la recherche sémantique jusqu’à l’analyse des sentiments et le regroupement de données ».

Sur le plan pratique, Google cite l’exemple des professionnels du droit : dans le cadre de procédures de divulgation de litiges, les intégrations multimodales de Gemini ont amélioré la précision et le rappel sur des millions de documents, tout en renforçant la recherche d’images et de vidéos.

Gemini Embedding 2 est disponible dès maintenant via l’API Gemini et Vertex AI sous la référence gemini-embedding-2-preview. Le modèle précédent, gemini-embedding-001, reste accessible pour les cas d’utilisation de texte uniquement.

Gemini Embedding 2 : Google lance son IA qui unifie texte, image, vidéo et audio

Une architecture unifiée qui simplifie les tâches

Related Posts

Plex met fin à l'accès à distance gratuit pour imposer son modèle payant

qu’est-ce que cela signifie pour toi

Transport maritime : comment la blockchain améliore la traçabilité des marchandises

Facebook peut désormais animer votre photo de profil avec l'IA

Latest