WEB

Gemini 2.5 Utilisation de l’ordinateur: Google AI vérifie le navigateur Web pour vous

Gemini 2.5 Computer Use

Google Rend disponible Aujourd’hui, son modèle d’intelligence artificielle Gemini 2.5 Utilisation de l’ordinateur. Cette version vous permet d’avoir des agents d’IA capables d’interagir directement avec les interfaces utilisateur en cliquant, en frappant du texte et en faisant défiler les pages comme le ferait un humain.

Gémeaux 2.5 Utilisation de l'ordinateur

Encourager les repères

Sur la base des capacités visuelles et de raisonnement de Gemini 2.5 Pro, ce modèle dépasse Claude Sonnet et l’opérateur OpenAI sur plusieurs repères de contrôle Web et mobile, tout en affichant une latence plus faible, selon les affirmations de Google. Les évaluations effectuées par Browsea et Google affichent notamment une qualité optimale pour le contrôle du navigateur, mesurée sur le test en ligne-Mind2. Cette avance répond à un besoin croissant selon le géant du Web: de nombreuses tâches numériques nécessitent toujours une manipulation directe des interfaces graphiques, en particulier pour remplir des formulaires ou interagir avec des éléments tels que les menus et les filtres de drop -down.

Gemini 2.5 Utiliser l'interdiction de l'ordinateur

Gemini 2.5 Utilisation de l'ordinateur Benchmark 2

Comment fonctionne Gemini 2.5 Computer Use

L’opération est basée sur un nouvel outil Computer_Use intégré à l’API Gemini, fonctionnant en cycle continu. Le modèle reçoit la requête utilisateur, une capture d’écran environnementale et l’historique des actions récentes. Il analyse ces données puis génère une réponse, généralement un appel de fonction représentant une action d’interface: cliquez, entrée ou défilement. Certaines opérations sensibles, telles que l’achat, déclenchent automatiquement une demande de confirmation à l’utilisateur final.

Après exécution de l’action, une nouvelle capture d’écran et l’URL actuelle reviennent au modèle en tant que réponse de fonction, relancez le cycle. Ce processus itératif se poursuit jusqu’à la fin du travail, l’arrivée d’une erreur ou l’interruption par une alerte de sécurité. Les développeurs peuvent également personnaliser les fonctions disponibles ou en ajouter de nouvelles en fonction de leurs besoins spécifiques.

L'ordinateur Gemini 2.5 utilise l'opération

Optimisé pour le Web et prometteur sur mobile

L’optimisation principale cible les navigateurs Web, où le modèle excelle dans la gestion des pages complexes et l’accès au contenu protégé par l’authentification. Les démonstrations montrent sa capacité à chaîner plusieurs étapes complexes: extraction des données à partir d’un formulaire, transfert vers un système de gestion des relations avec la clientèle (CRM), puis programmer un rendez-vous avec des paramètres spécifiques. Sur les interfaces mobiles, les résultats sont également encourageants, bien que le contrôle des systèmes d’exploitation informatique ne soit pas encore optimisé.

Voici deux exemples sur vidéo. Le premier est basé sur l’invite suivante:

Sur https://tinyurl.com/pet-care-signup, récupère toutes les informations concernant tout animal résidant en Californie et l’ajoute en tant qu’invité dans mon SPA CRM à https://pet-luxe-spa.web.app/. Ensuite, prenez rendez-vous pour une visite de suivi avec le spécialiste Anima Lavar le 10 octobre, à tout moment après 8 heures. La raison de la visite est la même que celle du traitement demandé.

https://www.youtube.com/watch?v=_lu-fcpuifm

Et le deuxième exemple avec l’invite suivante:

Mon club d’art a réfléchi aux tâches à accomplir avant notre spectacle. La table est chaotique et j’ai besoin de votre aide pour organiser les tâches dans les catégories que j’ai créées. Allez dans Sticky-note-jam.web.app et assurez-vous que les notes sont bien classées dans les bonnes sections. Sinon, faites-les glisser vers les bonnes sections.

https://www.youtube.com/watch?v=slolc1nkky0

Plusieurs éléments pour la sécurité

Google a intégré des fonctionnalités de sécurité directement dans le modèle pour contrer trois risques majeurs:

  • Utilisation malveillante intentionnelle
  • Comportement imprévu
  • Invites ou injections d’escroquerie présentes dans l’environnement Web.

Un service de sécurité externe évalue chaque action proposée avant son exécution. Les développeurs ont également des instructions système pour configurer des refus automatiques ou des demandes de confirmation pour les actions critiques: implication dans l’intégrité du système, le compromis de sécurité, le contournement du CAPTCHA ou le contrôle des dispositifs médicaux. Malgré ces garanties, Google encourage fortement les développeurs à tester de manière exhaustive leurs systèmes avant tout un déploiement public.

Gemini 2.5 L’utilisation de l’ordinateur est disponible via l’API Gemini sur Google AI Studio Et Vertex Ai. Il est également possible de voir une démonstration sur cette page.

Shares:

Related Posts