WEB

Gemini Embedding 2 : Google lance son IA qui unifie texte, image, vidéo et audio

Gemini Embedding 2.jpg

Google révélé Gemini Embedding 2, son premier modèle d’intégration d’IA nativement multimodal. Contrairement aux modèles génératifs comme Gemini 3, un modèle d’intégration ne produit pas de contenu : il convertit différents éléments (texte, image, vidéo, audio) en vecteurs mathématiques qu’une machine peut analyser pour comprendre la signification et les relations entre les données.

Intégration des Gémeaux 2

Une architecture unifiée qui simplifie les tâches

La première génération du modèle était limitée au texte. Gemini Embedding 2 intègre désormais cinq éléments dans un espace vectoriel unifié, avec prise en charge de 100 langues

Les limites par élément sont les suivantes :

  • Texte : jusqu’à 8 192 jetons par requête
  • Images : jusqu’à six images par demande (PNG/JPEG)
  • Vidéo : jusqu’à 120 secondes en MP4/MOV
  • Audio : ingestion directe sans transcription intermédiaire
  • Documents : PDF jusqu’à six pages

Le principal intérêt réside dans la possibilité de combiner plusieurs éléments dans une seule requête, par exemple une image accompagnée de texte, pour capturer les relations sémantiques entre différents types de médias. Google indique que le modèle « simplifie l’accès complexe et améliore une grande variété de tâches multimodales en aval, depuis la génération augmentée de récupération (RAG) et la recherche sémantique jusqu’à l’analyse des sentiments et le regroupement de données ».

Sur le plan pratique, Google cite l’exemple des professionnels du droit : dans le cadre de procédures de divulgation de litiges, les intégrations multimodales de Gemini ont amélioré la précision et le rappel sur des millions de documents, tout en renforçant la recherche d’images et de vidéos.

Gemini Embedding 2 est disponible dès maintenant via l’API Gemini et Vertex AI sous la référence gemini-embedding-2-preview. Le modèle précédent, gemini-embedding-001, reste accessible pour les cas d’utilisation de texte uniquement.

Shares:

Related Posts