Montrer l’index Cacher l’index
Impacts Nocifs sur l’IA: Des Milliers de Fichiers Illicites Détectés
Une enquête effarante menée par les experts de Stanford Internet Observatory a mis en lumière la présence troublante d’au moins 1 679 fichiers pédopornographiques dans une collection de données ouverte et répandue nommée LAION-5B.
Cette découverte tombe à un moment où la création de contenus pédopornographiques par des IAs devient un problème croissant en ligne. L’analyse effectuée récemment par l’institution a décelé que d’importantes archives de données, destinées à la formation des systèmes de synthèse visuelle, comportent des fichiers représentant des violences sexuelles sur mineurs. Ce répertoire conséquent, baptisé LAION-5B, a été utilisé pour éduquer l’IA Stable Diffusion de la firme Stability AI.
L’origine de cet ensemble englobe une quantité écrasante de plus de 5 milliards de visuels et textes explicatifs issus des plateformes communautaires et de sites de contenu pour adultes. Face à la performance des modèles IA pour fabriquer des visuels convaincants à partir de peu d’exemples, l’inquiétude monte autour de l’impact potentiel de la présence de telles images au sein de LAION-5B. Les auteurs de l’étude ont réagi en transmettant les fichiers prohibés aux autorités compétentes, notamment le National Center for Missing & Exploited Children aux USA et au Centre canadien pour la protection de l’enfance, et ils assurent que les images compromettantes sont en cours de suppression.
Actions de Contenance et Prévention
Conséquence directe de ces découvertes alarmantes, un correspondant de LAION a promis une politique inflexible contre la présence de contenus illicites. En guise de précaution, l’organisation non lucrative qui chapeaute le projet a provisoirement désactivé l’accès à la collection de données LAION sur le net pour une vérification et nettoyage approfondis.
Parallèlement, un représentant de Stability AI a affirmé que leur IA a été conditionnée avec une version épurée de LAION-5B. « Des systèmes de filtration ont été intégrés pour bloquer les commandes ou résultats problématiques lors des interactions utilisateurs avec nos modèles », a-t-il spécifié. Ces dispositifs sont complétés par des outils d’identification pour marquer les visuels conçus, des mesures visant à empêcher l’exploitation malintentionnée de leur technologie.
