Vous êtes-vous déjà demandé comment les géants de l’intelligence artificielle, comme ChatGPT, obtiennent leurs informations? Les récents événements autour de l’Encyclopedia Britannica et Merriam-Webster pourraient bien vous donner des éléments de réponse. Ces institutions ont décidé de se battre pour protéger la légitimité de leur contenu face aux incursions de l’IA. Découvrez les dessous de cette bataille judiciaire qui pourrait redéfinir les règles du jeu pour les modèles de langage actuels.
Les 3 infos à ne pas manquer
- Encyclopedia Britannica et Merriam-Webster ont porté plainte contre OpenAI pour utilisation sans autorisation de leurs contenus par ChatGPT.
- Les violations alléguées incluent la reproduction de contenus protégés par le Copyright Act de 1976 et la contrefaçon de marque sous le Lanham Act.
- La plainte met en lumière les pratiques de ChatGPT, notamment l’usage du système RAG pour consulter des sources en temps réel sans licence.
Les actions légales de Britannica et Merriam-Webster
L’Encyclopedia Britannica et Merriam-Webster ont entrepris des démarches judiciaires contre OpenAI, accusant ChatGPT de s’approprier leurs contenus sans autorisation. Ces actions ont été lancées devant le tribunal fédéral de New York, poursuivant des accusations similaires envers d’autres technologies d’IA comme Perplexity.
La plainte repose sur deux fondements juridiques principaux : la violation du Copyright Act de 1976 et la contrefaçon de marque selon le Lanham Act. Les éditeurs allèguent que leurs contenus, protégés par des droits d’auteur, ont été exploités pour entraîner des modèles de langage, notamment à travers des bases de données comme « WebText » et « Common Crawl ».
Les pratiques de ChatGPT en question
Un aspect central de la plainte concerne le système RAG (Retrieval Augmented Generation) utilisé par ChatGPT. Ce dernier permet au modèle de rechercher des informations en ligne en temps réel sans obtenir de licence, y compris sur les sites de Britannica et Merriam-Webster. Cette pratique soulève des questions sur l’utilisation et la reproduction non autorisée de contenus protégés.
En outre, la plainte inclut des exemples concrets où GPT-4 a reproduit textuellement des extraits des articles « Education » et « Tourism » de Britannica. Ironiquement, ChatGPT a même repris la définition du verbe « plagiarize » directement du Merriam-Webster Collegiate Dictionary.
Impact sur les marques et le secteur de l’édition
La plainte souligne également le problème des « hallucinations » de ChatGPT, où le modèle invente des informations et les attribue à des sources réputées. Cela porte atteinte à la crédibilité de marques comme Britannica et Merriam-Webster, qui s’appuient sur des siècles de rigueur éditoriale. Ces fausses attributions peuvent induire les utilisateurs en erreur et nuire à la réputation des éditeurs.
Depuis l’abandon de l’édition papier en 2012, Britannica a concentré ses efforts sur le numérique, dépendant fortement des abonnements et de la publicité. Lorsque ChatGPT fournit des réponses sans rediriger les utilisateurs vers le site original, cela impacte directement le trafic et, par conséquent, les revenus des éditeurs.
Contexte et précédents dans le secteur de l’IA
Les actions de Britannica et Merriam-Webster s’inscrivent dans une vague de litiges croissants contre les sociétés d’IA pour violation de droits d’auteur. Aux États-Unis, plus de 90 procès de ce type ont été déposés. Un exemple notable est le cas Anthropic, éditeur de Claude, accusé d’avoir utilisé des livres piratés. L’affaire s’est soldée par un règlement de 1,5 milliard de dollars, soulignant l’importance des droits de propriété intellectuelle dans l’entraînement des modèles d’IA.
Ces litiges mettent en lumière les défis auxquels sont confrontés les éditeurs et les créateurs de contenu face à l’évolution rapide des technologies d’intelligence artificielle. Tandis que les modèles de langage continuent de s’améliorer, la question de l’utilisation équitable des contenus protégés demeure un sujet brûlant pour l’industrie.






