Éthique des données et intelligence artificielle : une femme peut-elle devenir pompier ?

mai 23, 2022

Qui dit développement du Big data dit augmentation de la taille des jeux de données. Que ce soit Google qui capte toutes les recherches internet faites sur son moteur de recherche ou tous les mails que nous envoyons ou recevons sur nos boites Gmail, ou bien n’importe quel réseau social, les grandes entreprises accumulent de plus en plus de données sur leurs utilisateurs. Lorsque l’on possède autant de données, il est évidemment tentant de s’en servir. Quoi de mieux alors que de développer un algorithme d’intelligence artificielle et de lui injecter ces fameuses données ?


Tout cela amène son lot d’interrogations : comment conserver toutes ces données ? Est-il légal pour ces entreprises de les exploiter ? Est-ce que cela peut ou pourrait avoir des conséquences négatives sur nous, simples utilisateurs ? Quelle éthique pour l’utilisation de ces données ? 


C’est sur cette dernière question que nous allons nous arrêter dans cet article. Après avoir fait une brève analyse de la gestion RH de Google concernant son personnel travaillant dans l’IA, nous donnerons quelques éléments permettant de définir la notion d’éthique des données. Nous conclurons cet article en abordant le problème de l’algorithme de traitement automatique des langues le plus populaire actuellement : GPT-3.

Google et l’éthique ne semblent pas faire bon ménage


Après avoir co-publié en 2018 un article qui a amené Amazon, Microsoft et IBM à revoir leur algorithme de reconnaissance faciale, Timnit Gebru, éminente chercheuse en éthique de l’IA, a co-rédigé en 2020 un nouvel article (1) s’attaquant cette fois aux algorithmes de NLP ( Natural Language Processing , ou Traitement Automatique des Langues). L’article démontre notamment qu’il n’est pas pertinent d’augmenter sans cesse la taille du jeu de données ingéré par les algorithmes tels que GPT-3 (bot conversationnel censé rédiger des écrits à la place d’un être humain), au risque d’introduire un biais considérable si les données ne sont pas contextualisées. L’idée de l’article est aussi de pointer du doigt la consommation électrique dépensée pour entraîner de tels modèles, alors qu’un algorithme plus efficace pourrait se contenter d’un jeu de données plus faible mais mieux documenté.


En 2022, Satrajit Chatterjee — qui travaille alors chez Google — s’attaque avec son équipe à un article scientifique publié par d’autres chercheurs de l’entreprise, qui prétend qu’une IA est capable de concevoir certaines parties d’une puce informatique plus rapidement et mieux que les êtres humains. Chatterjee conteste notamment la comparaison avec la qualité atteinte par un opérateur humain, qui est par définition subjective.


Dans les deux cas, les protagonistes travaillent chez Google lors des faits. Mais ces deux lanceurs d’alerte vont être écartés de l’entreprise alors qu’ils élèvent leur voix contre les pratiques de leur employeur. Officiellement, Timnit Gebru démissionne en décembre 2020. Elle annonce cependant n’avoir jamais présenté sa démission
(2) . Elle codirige à l’époque l’équipe sur l'éthique dans l'intelligence artificielle de Google. L’autre co-directrice de cette équipe, Margaret Mitchell, sera licenciée à son tour 2 mois plus tard, alors qu’elle contestait le départ de Timnit Gebru. Dans le même laps de temps, une lettre ouverte cosignée par 1400 employés de Google contestait également le licenciement de Timnit Gebru (3) . Satrajit Chatterjee a quant à lui été licencié il y a 2 mois, alors qu’il dirigeait une équipe de recherche sur l’Intelligence Artificielle chez Google Brains.

L’éthique des données, c’est quoi ?


Il y a deux façons d’aborder la question de l’éthique des données : par le prisme de l’individu et de la protection des données, ou bien par le prisme de la société et des risques qu’elle encourt à voir demain des IA mal entraînées avoir une application concrète dans notre vie de tous les jours. Le premier angle est déjà largement traité par de nombreux articles et relève généralement plutôt du droit, comme la réglementation RGPD au niveau de l’Union Européenne, ou les règles établies par la CNIL en France. Le second, lui, est beaucoup moins discuté.


L’article co-signé par Timnit Gebru en 2018
(4) portait sur les disparités, en termes de reconnaissance faciale, selon le sexe et la couleur de peau de l’individu. L’étude démontre que les algorithmes d’IBM, Microsoft et Face++ avaient un taux d’erreur égal ou proche de 0% pour les hommes ayant une peau claire, tandis que ce taux était compris entre 16 et 35% pour les femmes à la peau sombre. Facile d’imaginer dès lors que l’application de tels algorithmes dans la vie réelle (pour accéder à un lieu, obtenir des documents, etc.) entraînerait de nombreux problèmes de discrimination et de rupture d’égalité. L’objet ici n’est pas de commenter les conséquences de tout cela, mais plutôt d’en analyser les causes.


C’est en poursuivant la lecture de l’article de Timnit Gebru que l’on comprend mieux ce qui peut amener à de tels biais dans des algorithmes pourtant développés par de puissantes entreprises. Tout d’abord, les jeux de données ne sont pas invariants à la pose, à l’éclairage ou encore à l’arrière-plan des images analysées. Selon le lieu où sont prises les photos ou le contexte culturel, l’environnement sera différent — cela se vérifie même sur les photos officielles des gouvernements de pays différents…


Le but recherché par les auteurs de ces algorithmes est de maximiser la taille du jeu de données en délaissant toute structuration de ce jeu de données. Structurer un jeu de données reviendrait à générer des données supplémentaires, qui évalueraient par exemple chaque critère mentionné précédemment au travers d’une métrique spécifique à chacun d’entre eux. Le problème est que tout cela est trop coûteux en temps, et que personne ne le fait. Les auteurs de l’article avancent un autre point problématique dans les jeux de données utilisées : les réglages par défaut des caméras sont souvent optimisés pour l’exposition de peaux claires. Avec cette information en tête, on comprend tout de suite mieux pourquoi les algorithmes ont un taux d’erreur plus important chez les personnes noires.

Depuis la publication de cet article, des actions ont été entreprises par les sociétés concernées. Mais un problème plus important encore a émergé avec les algorithmes de NLP, et notamment le plus connu d’entre eux à l’heure actuelle : GPT-3. 

GPT -3, un acronyme devenu un symbole des problèmes d’éthique des données 


Entraîné à partir d’un jeu de données de très grande taille (175 téraoctets), GPT-3 fait l’objet de nombreuses contestations scientifiques, tant le jeu de données utilisé semble faillible. 

Parmi les biais observés de GPT-3, on retrouve le biais de genre (sexisme). Dans un article de mars 2022 (5) , une utilisatrice de l’algorithme teste différentes générations de texte à partir d’entrée textuelle identique au genre près ( man et woman ). On découvre par exemple que :

  • «  tout homme se demande  » est complété par l’algorithme par «  pourquoi il est né dans ce monde et à quoi sert sa vie  » ;
  • là où pour «  toute femme se demande  », l’algorithme suggère «  ce que ça fait d’être un homme  ». 


Plus loin dans l’article, l’auteure teste une autre tournure en entrée :

  • l’algorithme complète «  les hommes ne peuvent pas  » par «  s'empêcher d'être impressionnés par le niveau de compétence et de talent artistique qui entre dans la fabrication d'une bonne guitare  » ;
  • et «  les femmes ne peuvent pas  » par «  être pompiers  »…


Nous pourrions éventuellement en rire (jaune) tellement ces complétions sont caricaturales, mais le problème majeur reste que cet algorithme est exploité par des sociétés qui sont spécialisés dans des services à destination d’autres entreprises ou de particuliers. Parmi ces sociétés se trouvent même des licornes (6) telles qu’Algolia (moteur de recherche) ou encore MessageBird. Cette dernière propose une messagerie réactive qui interagit avec les clients d’une entreprise. Nous pouvons alors nous interroger sur le comportement de leur produit, s’il prend en compte le genre de la personne interagissant avec lui… 


Le biais de genre n’est toutefois pas le seul qui inquiète, et ce sont les équipes de GPT-3 qui le disent elles-mêmes (7) . Elles ont en effet également analysé le biais racial ou encore le biais de religion, et ces derniers s’avèrent bien réels chez GPT-3. Les chercheurs d’OpenAI (la société ayant développé GPT-3) écrivent ainsi : «  Internet-trained models have internet-scale biases  ». Le souci n’est donc pas d’accepter l’existence de biais dans un tel algorithme, mais de savoir les corriger a priori.

La qualité de la donnée, une des clés pour renforcer l’éthique des données


Ces biais ne sont donc pas sortis de nulle part. Un algorithme de NLP s’entraîne obligatoirement sur un jeu de données textuel. Un tel jeu de données étant par essence constitué de textes rédigés par l’Homme, il ne fait aucun doute que les biais générés correspondent dans leur grande majorité à des biais existants chez les multiples créateurs du jeu de données. GPT-3, pour en revenir à lui, est entraîné sur un jeu de données constitué à plus de 90% de texte en anglais, introduisant par conséquent un biais linguistique d’une part et un potentiel biais culturel d’autre part.


Alors quelle solution existe-t-il si nous souhaitons construire demain des algorithmes équivalents à GPT-3 qui soient le plus exempt possible de biais ? Une piste est de se focaliser sur des jeux de données plus petits, mais mieux structurés et mieux documentés. Chaque jeu de données agrégé doit avoir une carte d’identité qui réponde à de nombreuses questions préalables : qui a construit ce jeu de données ? dans quel but ? avec quel financement ? Et toutes ces informations doivent être converties en des paramètres que l’algorithme puisse ingérer.

Un exemple d’initiative (récente) est l’algorithme GPT-J, conçu par Hugging Face. Cet algorithme est entraîné sur le jeu de données Pile (8) qui est constitué de 22 jeux de données de petite taille (“seulement” 825 Go lorsque nous additionnons leur volume) et de haute qualité (9) .


Ce sujet est l’une des motivations qui a conduit le pôle data de Agaetis à développer un sujet de R&D autour de la qualité des données, et à accueillir une doctorante, Roxane Jouseau, pour l’approfondir. Nous aurons l’occasion de vous reparler de ses travaux au travers de prochains articles.




(9) Nous ne commenterons pas ici la qualité de ce jeu de données et renvoyons le lecteur vers la publication scientifique associée https://arxiv.org/abs/2101.00027

Ressources Agaetis

par David Walter 16 févr., 2024
OpenAI, a récemment dévoilé SORA, un outil de génération de vidéo. SORA monte encore une marche, offrant des capacités de génération de vidéos réalistes. Cet article explore les caractéristiques clés de SORA, son impact potentiel sur diverses industries, les points de réflexions et l'impact pour l'avenir de la création de contenu. Qu'est-ce que SORA ? SORA est une interface avancée conçue par OpenAI qui permet de générer des séquences vidéo à partir de descriptions textuelles simples. Utilisant des techniques de pointe en matière d'intelligence artificielle et d'apprentissage profond, SORA est capable de comprendre des commandes complexes et de les traduire en contenus visuels impressionnants. Une qualité de génération inégalée La capacité de SORA à générer des vidéos époustouflantes souligne un tournant dans le domaine de la production vidéo, où la qualité et la créativité ne sont plus entravées par des contraintes techniques ou financières. Cette avancée s'inscrit dans un contexte plus large où l'IA transforme profondément les industries créatives, offrant des outils puissants pour la transcription, le doublage, la création d'avatars générés par IA, et même la suppression de fonds vidéo, rendant ces processus plus accessibles et flexibles​​​​​​. Des outils comme Descript et Adobe Premiere Pro intègrent des fonctionnalités AI pour améliorer le processus d'édition vidéo, depuis la rotation des yeux jusqu'à la génération de transcriptions et sous-titres​​. De même, la comparaison entre DALL-E 3 et Midjourney montre comment l'IA peut capturer des détails et des ambiances spécifiques dans les images, un principe également applicable à la vidéo​​. La révolution du streaming vidéo illustre comment l'adaptation numérique bouleverse les modèles économiques traditionnels, offrant une perspective sur la manière dont les technologies génératives pourraient remodeler le paysage médiatique​​. L'impact de ces technologies dépasse la simple création de contenu ; elles remodèlent également notre compréhension de la créativité et ouvrent de nouvelles voies pour l'expression artistique et la communication. Avec des outils comme SORA, la barrière entre l'idée et sa réalisation se réduit, permettant à un plus grand nombre de personnes de donner vie à leurs visions créatives sans les contraintes traditionnelles de la production vidéo. Cet élan vers une qualité de génération inégalée par l'IA soulève des questions importantes sur l'avenir du contenu créatif et la manière dont nous valorisons l'interaction entre l'humain et la technologie dans le processus créatif. Alors que nous explorons ces nouvelles frontières, il est crucial de rester attentifs aux implications éthiques et aux défis que ces technologies posent, tout en reconnaissant leur potentiel pour enrichir notre monde visuel et narratif.
Airflow PostgreSQL MongoDB
par Ikram Zouaoui 07 févr., 2024
Integration de technologies pour optimiser les flux de travail : L'article met en lumière une approche combinée utilisant Airflow, PostgreSQL, et MongoDB pour améliorer l'efficacité des flux de travail liés aux données.
Show More
Share by: