mostrar índice esconder índice
Des intelligences artificielles au cœur d’une controverse pédopornographique
L’utilisation inattendue des bases de données AI
Lorsque des enthousiastes de la technologie emploient des systèmes d’IA pour générer des visuels, ils ignorent souvent que ces outils peuvent piocher dans des collections d’images répréhensibles. Selon des recherches menées par l’Observatoire Internet de Stanford et relayées par 404 Media, cette situation alarmante est liée à LAION-5B, une vaste base de données utilisée pour la formation de multiples algorithmes, dont le notable Stable Diffusion. Cette immense bibliothèque d’environ six milliards d’éléments comprend malheureusement des milliers de fichiers illicites, avec pas moins de 3 226 images classifiées comme pédopornographiques.
L’origine controversée des données
À l’origine, l’organisation à but non lucratif LAION a été créée dans le dessein de fournir des outils d’apprentissage automatique accessibles au public. LAION-5B figure parmi ses principales contributions. La base répertorie divers liens d’images provenant d’Internet, y compris des plateformes sociales où la pédopornographie peut malheureusement se cacher. Marcus Rogers de l’Université Purdue soulève une critique sévère à cet égard: les entreprises manquent soit de volonté pour prendre connaissance des contenus illicites, soit elles ont franchement perdu la maîtrise sur le contenu diffusé.
Des tentatives de filtration inefficaces
Dès 2021, les responsables de LAION exprimaient des doutes sur la conformité légale de certains éléments de leur base de données. Malgré des tentatives de nettoyage, des images douteuses ont subsisté et LAION-5B a été mise à la disposition du public. Les signalements d’utilisateurs concernés n’ont été sérieusement considérés qu’après plusieurs mois, conduisant finalement à la suspension temporaire de LAION-5B et d’une autre base, LAION-44M, le temps de rendre ces outils inoffensifs.
Les implications pour les utilisateurs
Les implications sont sérieuses pour quiconque télécharge la totalité de ces bases de données sans prendre des mesures extrêmes: ils se retrouvent potentiellement en possession de contenu illégal. David Thiel de Stanford précise que les filtres développés par LAION pour éliminer ces images ne sont apparus que récemment.
Tableau Récapitulatif
| Base de données | Nombre d’images | Contenus illicites | Action de LAION |
| LAION-5B | ~6 milliards | Oui, inclut des images pédopornographiques | Filtrage et suspension temporaire |
| LAION-44M | Non spécifié | Potentiellement (suspension préventive) | Suspension temporaire |
En conclusion, cette affaire soulève des questions éthiques et légales cruciales sur la gestion des données par les organisations qui promeuvent l’open source, ainsi que sur les responsabilités incombant aux utilisateurs de ces bases de données. Elle met en lumière la nécessité de protéger l’intégrité et la sécurité des systèmes d’IA générative.
