Des éditeurs poursuivent Meta qui entraîne son IA avec leurs livres

Méta fait face à un nouveau recours collectif aux Etats-Unis, porté cette fois par de grands éditeurs qui lui reprochent d’avoir nourri son grand modèle de langage lama avec des livres et des articles piratés. La plainte demande des dommages et intérêts, la fin des pratiques contestées et la divulgation des œuvres utilisées pour entraîner les modèles.

Jusqu’ici, Meta était principalement attaqué par des auteurs, mais le groupe doit désormais répondre à une offensive menée par Macmillan, McGraw Hill, Elsevier, Hachette, Cengage et l’écrivain Scott Turow qui décrivent l’affaire comme l’une des plus grandes affaires de violation de droits d’auteur liées à la formation d’un modèle d’intelligence artificielle.

Les plaignants affirment d’abord que Meta a sciemment pris des œuvres de bibliothèques pirates bien connues comme LibGen, Anna’s Archive, Sci-Hub ou Sci-Mag, puis qu’elle a renforcé cet ensemble avec Common Crawl qui est saturé de copies non autorisées. Leur thèse est que ce matériel de formation se retrouve ensuite dans les réponses de Llama, capable selon eux de restituer des passages entiers ou presque d’ouvrages protégés.

Pour étayer cette idée, la plainte cite un exemple concret autour du livre Calcul : les premiers transcendantaux9e édition, par James Stewart. Avec une invite comprenant deux phrases du livre, Llama commence à étendre mot pour mot la section concernée.

Un nouveau front dans la bataille de l’IA et du livre

Cette action s’inscrit dans un contexte juridique encore instable. L’année dernière, un juge fédéral s’est prononcé en faveur de Meta dans une autre affaire, mais il a pris soin de préciser que sa décision ne validait pas entièrement la légalité de la formation de modèles d’IA sur des œuvres protégées.

Le parallèle avec Anthropic renforce encore la pression. Un juge a reconnu que glisser des livres achetés légalement pourrait être une utilisation équitable, tout en permettant le développement d’un recours collectif distinct concernant des millions d’œuvres piratées, qu’Anthropic a finalement réglé pour 1,5 milliard de dollars l’année dernière.

Les éditeurs et Scott Turow demandent donc plus qu’une compensation financière. Ils souhaitent également que Meta mette fin aux activités qu’ils jugent illégales et fournisse une liste complète des livres, articles scientifiques et autres contenus utilisés pour entraîner les lamas.

Meta, pour sa part, assume une ligne de défense désormais classique dans l’industrie. Un porte-parole du groupe déclare : « L’IA stimule l’innovation, la productivité et la créativité transformatrices pour les individus comme pour les entreprises, et les tribunaux ont reconnu à juste titre que la formation de l’IA sur des contenus protégés peut constituer une utilisation équitable. Nous lutterons vigoureusement contre cette plainte. »