Bonjour, OpenAI, Microsoft et Google déploient des outils d’IA destinés à être utilisés par des personnes du monde entier, conçus à partir de données récupérées un peu partout sur Internet. Une nouvelle enquête de Mozilla se penche sur les enjeux des données d’entraînement bon marché et constate que de nombreux outils d’IA générative, y compris la version gratuite de ChatGPT, ont été entraînés sur un gigantesque ensemble de données contenant des contenus toxiques. Ce contenu doit être minutieusement filtré, ce qui n’est pas toujours le cas.1 Cet ensemble de données, qui comprend 9,5 millions de gigaoctets et créé par la petite organisation à but non lucratif Common Crawl, est la source de données pour de nombreux grands modèles de langage qui composent le paysage de l’IA d’aujourd’hui sur Internet. L’approche open source de Common Crawl contribue à rendre le développement de l’IA générative plus transparent et plus compétitif. Mais les fournisseurs d’ensembles de données ne peuvent pas être le seul maillon qui fasse preuve de transparence dans la chaîne de l’IA générative. Les entreprises doivent faire preuve de transparence quant aux ensembles de données qu’elles utilisent et aux mesures qu’elles prennent pour s’assurer que les contenus toxiques, biaisés et autres contenus nocifs sont supprimés avant de mettre au point des outils d’IA. Presque tous les autres produits que nous utilisons ou consommons quotidiennement comportent des étiquettes d’avertissement de sécurité ou une liste d’ingrédients. En tant que clients, pourquoi n’aurions-nous pas le droit de savoir ce que contiennent les outils d’IA que nous utilisons ? Ensemble, mettons à profit notre pouvoir de consommateurs et faisons pression sur OpenAI, Google et Microsoft pour qu’ils nous disent ce que contiennent leurs IA. Signez la pétition de Mozilla pour demander à OpenAI, Google et Microsoft d’être transparents sur les données utilisées pour entraîner leurs outils d’IA ! Signer → Common Crawl a travaillé dans l’ombre, collectant et archivant des données sur Internet depuis 2007 et pendant longtemps, sa base d’utilisateurs était relativement restreinte et composée essentiellement de chercheurs. Mais aujourd’hui, c’est sans doute l’organisation à but non lucratif la plus influente dont vous n’avez jamais entendu parler. L’IA est à un véritable tournant et l’enquête de Mozilla a mis en lumière des lacunes structurelles dans l’utilisation actuelle de Common Crawl par certaines entreprises pour entraîner des modèles d’IA. Les principaux problèmes sont les suivants : L’ensemble de données de Common Crawl est gigantesque, mais il ne représente qu’une fraction d’Internet : il capture principalement des contenus en langue anglaise et sa couverture géographique est inégale. Les concepteurs d’IA doivent tenir compte de ces limites, faute de quoi leurs produits ne seront utiles qu’à une petite partie de la population mondiale et auront une perspective biaisée. Les données de Common Crawl contiennent des propos haineux et des contenus explicites qui sont utiles dans le cadre de travaux de recherche, mais néfastes lorsqu’ils sont utilisés sans précaution pour entraîner des produits destinés au grand public. Des entreprises comme OpenAI, Google et Microsoft doivent préciser quelles sources de données d’entraînement elles ont utilisées et comment elles ont filtré ces données, quel est l’effet de ces données sur leurs produits d’IA et quelles sont les mesures qu’elles prennent pour remédier aux préjudices causés par les contenus biaisés et explicites. Créer des produits dignes de confiance basés sur l’IA nécessite de faire mieux que ça. Comme savoir de quelle façon l’IA est entraînée pour comprendre ses risques et ses limites mais surtout ce qu’il faut améliorer pour la rendre fiable et utile pour tout le monde. Et cette amélioration commence par une plus grande transparence de la part des géants de la tech responsables de l’entraînement des modèles d’IA. Demandez à OpenAI, Google et Microsoft d’être transparents sur les données utilisées pour entraîner leurs outils d’IA ! Signer → Merci pour tout ce que vous faites pour Internet. Christian Bock Responsable de l’engagement Mozilla Pour en savoir plus : 1. Fondation Mozilla : Training Data for the Price of a Sandwich: Common Crawl’s Impact on Generative AI. Écrit par Stefan Baack sur la base des informations recueillies par Mozilla. Publié le 6 février 2024. |