Éthique des données et intelligence artificielle : une femme peut-elle devenir pompier ?

23 mai 2022

Qui dit développement du Big data dit augmentation de la taille des jeux de données. Que ce soit Google qui capte toutes les recherches internet faites sur son moteur de recherche ou tous les mails que nous envoyons ou recevons sur nos boites Gmail, ou bien n’importe quel réseau social, les grandes entreprises accumulent de plus en plus de données sur leurs utilisateurs. Lorsque l’on possède autant de données, il est évidemment tentant de s’en servir. Quoi de mieux alors que de développer un algorithme d’intelligence artificielle et de lui injecter ces fameuses données ?


Tout cela amène son lot d’interrogations : comment conserver toutes ces données ? Est-il légal pour ces entreprises de les exploiter ? Est-ce que cela peut ou pourrait avoir des conséquences négatives sur nous, simples utilisateurs ? Quelle éthique pour l’utilisation de ces données ? 


C’est sur cette dernière question que nous allons nous arrêter dans cet article. Après avoir fait une brève analyse de la gestion RH de Google concernant son personnel travaillant dans l’IA, nous donnerons quelques éléments permettant de définir la notion d’éthique des données. Nous conclurons cet article en abordant le problème de l’algorithme de traitement automatique des langues le plus populaire actuellement : GPT-3.

Google et l’éthique ne semblent pas faire bon ménage


Après avoir co-publié en 2018 un article qui a amené Amazon, Microsoft et IBM à revoir leur algorithme de reconnaissance faciale, Timnit Gebru, éminente chercheuse en éthique de l’IA, a co-rédigé en 2020 un nouvel article (1) s’attaquant cette fois aux algorithmes de NLP ( Natural Language Processing , ou Traitement Automatique des Langues). L’article démontre notamment qu’il n’est pas pertinent d’augmenter sans cesse la taille du jeu de données ingéré par les algorithmes tels que GPT-3 (bot conversationnel censé rédiger des écrits à la place d’un être humain), au risque d’introduire un biais considérable si les données ne sont pas contextualisées. L’idée de l’article est aussi de pointer du doigt la consommation électrique dépensée pour entraîner de tels modèles, alors qu’un algorithme plus efficace pourrait se contenter d’un jeu de données plus faible mais mieux documenté.


En 2022, Satrajit Chatterjee — qui travaille alors chez Google — s’attaque avec son équipe à un article scientifique publié par d’autres chercheurs de l’entreprise, qui prétend qu’une IA est capable de concevoir certaines parties d’une puce informatique plus rapidement et mieux que les êtres humains. Chatterjee conteste notamment la comparaison avec la qualité atteinte par un opérateur humain, qui est par définition subjective.


Dans les deux cas, les protagonistes travaillent chez Google lors des faits. Mais ces deux lanceurs d’alerte vont être écartés de l’entreprise alors qu’ils élèvent leur voix contre les pratiques de leur employeur. Officiellement, Timnit Gebru démissionne en décembre 2020. Elle annonce cependant n’avoir jamais présenté sa démission
(2) . Elle codirige à l’époque l’équipe sur l'éthique dans l'intelligence artificielle de Google. L’autre co-directrice de cette équipe, Margaret Mitchell, sera licenciée à son tour 2 mois plus tard, alors qu’elle contestait le départ de Timnit Gebru. Dans le même laps de temps, une lettre ouverte cosignée par 1400 employés de Google contestait également le licenciement de Timnit Gebru (3) . Satrajit Chatterjee a quant à lui été licencié il y a 2 mois, alors qu’il dirigeait une équipe de recherche sur l’Intelligence Artificielle chez Google Brains.

L’éthique des données, c’est quoi ?


Il y a deux façons d’aborder la question de l’éthique des données : par le prisme de l’individu et de la protection des données, ou bien par le prisme de la société et des risques qu’elle encourt à voir demain des IA mal entraînées avoir une application concrète dans notre vie de tous les jours. Le premier angle est déjà largement traité par de nombreux articles et relève généralement plutôt du droit, comme la réglementation RGPD au niveau de l’Union Européenne, ou les règles établies par la CNIL en France. Le second, lui, est beaucoup moins discuté.


L’article co-signé par Timnit Gebru en 2018
(4) portait sur les disparités, en termes de reconnaissance faciale, selon le sexe et la couleur de peau de l’individu. L’étude démontre que les algorithmes d’IBM, Microsoft et Face++ avaient un taux d’erreur égal ou proche de 0% pour les hommes ayant une peau claire, tandis que ce taux était compris entre 16 et 35% pour les femmes à la peau sombre. Facile d’imaginer dès lors que l’application de tels algorithmes dans la vie réelle (pour accéder à un lieu, obtenir des documents, etc.) entraînerait de nombreux problèmes de discrimination et de rupture d’égalité. L’objet ici n’est pas de commenter les conséquences de tout cela, mais plutôt d’en analyser les causes.


C’est en poursuivant la lecture de l’article de Timnit Gebru que l’on comprend mieux ce qui peut amener à de tels biais dans des algorithmes pourtant développés par de puissantes entreprises. Tout d’abord, les jeux de données ne sont pas invariants à la pose, à l’éclairage ou encore à l’arrière-plan des images analysées. Selon le lieu où sont prises les photos ou le contexte culturel, l’environnement sera différent — cela se vérifie même sur les photos officielles des gouvernements de pays différents…


Le but recherché par les auteurs de ces algorithmes est de maximiser la taille du jeu de données en délaissant toute structuration de ce jeu de données. Structurer un jeu de données reviendrait à générer des données supplémentaires, qui évalueraient par exemple chaque critère mentionné précédemment au travers d’une métrique spécifique à chacun d’entre eux. Le problème est que tout cela est trop coûteux en temps, et que personne ne le fait. Les auteurs de l’article avancent un autre point problématique dans les jeux de données utilisées : les réglages par défaut des caméras sont souvent optimisés pour l’exposition de peaux claires. Avec cette information en tête, on comprend tout de suite mieux pourquoi les algorithmes ont un taux d’erreur plus important chez les personnes noires.

Depuis la publication de cet article, des actions ont été entreprises par les sociétés concernées. Mais un problème plus important encore a émergé avec les algorithmes de NLP, et notamment le plus connu d’entre eux à l’heure actuelle : GPT-3. 

GPT -3, un acronyme devenu un symbole des problèmes d’éthique des données 


Entraîné à partir d’un jeu de données de très grande taille (175 téraoctets), GPT-3 fait l’objet de nombreuses contestations scientifiques, tant le jeu de données utilisé semble faillible. 

Parmi les biais observés de GPT-3, on retrouve le biais de genre (sexisme). Dans un article de mars 2022 (5) , une utilisatrice de l’algorithme teste différentes générations de texte à partir d’entrée textuelle identique au genre près ( man et woman ). On découvre par exemple que :

  • «  tout homme se demande  » est complété par l’algorithme par «  pourquoi il est né dans ce monde et à quoi sert sa vie  » ;
  • là où pour «  toute femme se demande  », l’algorithme suggère «  ce que ça fait d’être un homme  ». 


Plus loin dans l’article, l’auteure teste une autre tournure en entrée :

  • l’algorithme complète «  les hommes ne peuvent pas  » par «  s'empêcher d'être impressionnés par le niveau de compétence et de talent artistique qui entre dans la fabrication d'une bonne guitare  » ;
  • et «  les femmes ne peuvent pas  » par «  être pompiers  »…


Nous pourrions éventuellement en rire (jaune) tellement ces complétions sont caricaturales, mais le problème majeur reste que cet algorithme est exploité par des sociétés qui sont spécialisés dans des services à destination d’autres entreprises ou de particuliers. Parmi ces sociétés se trouvent même des licornes (6) telles qu’Algolia (moteur de recherche) ou encore MessageBird. Cette dernière propose une messagerie réactive qui interagit avec les clients d’une entreprise. Nous pouvons alors nous interroger sur le comportement de leur produit, s’il prend en compte le genre de la personne interagissant avec lui… 


Le biais de genre n’est toutefois pas le seul qui inquiète, et ce sont les équipes de GPT-3 qui le disent elles-mêmes (7) . Elles ont en effet également analysé le biais racial ou encore le biais de religion, et ces derniers s’avèrent bien réels chez GPT-3. Les chercheurs d’OpenAI (la société ayant développé GPT-3) écrivent ainsi : «  Internet-trained models have internet-scale biases  ». Le souci n’est donc pas d’accepter l’existence de biais dans un tel algorithme, mais de savoir les corriger a priori.

La qualité de la donnée, une des clés pour renforcer l’éthique des données


Ces biais ne sont donc pas sortis de nulle part. Un algorithme de NLP s’entraîne obligatoirement sur un jeu de données textuel. Un tel jeu de données étant par essence constitué de textes rédigés par l’Homme, il ne fait aucun doute que les biais générés correspondent dans leur grande majorité à des biais existants chez les multiples créateurs du jeu de données. GPT-3, pour en revenir à lui, est entraîné sur un jeu de données constitué à plus de 90% de texte en anglais, introduisant par conséquent un biais linguistique d’une part et un potentiel biais culturel d’autre part.


Alors quelle solution existe-t-il si nous souhaitons construire demain des algorithmes équivalents à GPT-3 qui soient le plus exempt possible de biais ? Une piste est de se focaliser sur des jeux de données plus petits, mais mieux structurés et mieux documentés. Chaque jeu de données agrégé doit avoir une carte d’identité qui réponde à de nombreuses questions préalables : qui a construit ce jeu de données ? dans quel but ? avec quel financement ? Et toutes ces informations doivent être converties en des paramètres que l’algorithme puisse ingérer.

Un exemple d’initiative (récente) est l’algorithme GPT-J, conçu par Hugging Face. Cet algorithme est entraîné sur le jeu de données Pile (8) qui est constitué de 22 jeux de données de petite taille (“seulement” 825 Go lorsque nous additionnons leur volume) et de haute qualité (9) .


Ce sujet est l’une des motivations qui a conduit le pôle data de Agaetis à développer un sujet de R&D autour de la qualité des données, et à accueillir une doctorante, Roxane Jouseau, pour l’approfondir. Nous aurons l’occasion de vous reparler de ses travaux au travers de prochains articles.




(9) Nous ne commenterons pas ici la qualité de ce jeu de données et renvoyons le lecteur vers la publication scientifique associée https://arxiv.org/abs/2101.00027

Ressources Agaetis

par Achats Agaetis 26 novembre 2025
Le contexte du projet : Groupe Aérospatial souhaitait optimiser le temps de contrôle dimensionnel des réservoirs de son lanceur spatial. Les méthodes traditionnelles, longues et peu satisfaisantes, ralentissaient la production et augmentaient les risques d’erreurs. Le besoin était de développer une application de contrôle qualité et dimensionnel intégrant de nouveaux moyens de mesure plus rapides et précis. L’objectifs : L’objectif principal était de concevoir et déployer une application installée sur un PC concentrateur capable de : lancer différents programmes de contrôle dimensionnel, intégrer des technologies de mesure avancées (profilomètres lasers, trackers laser), et améliorer la précision et la répétabilité des contrôles. Durée de mission : Mission de plusieurs mois, de la conception logicielle à la formation des équipes, en passant par l’intégration et les tests. Mise en œuvre : Agaetis a déployé une approche technique et collaborative : Développement de l’application : architecture logicielle adaptée aux besoins d’intégration industrielle. Collecte et traitement des données : intégration des mesures issues des machines à commande numérique, trackers laser et profilomètres. Optimisation des processus : automatisation des contrôles pour gagner en rapidité et réduire les erreurs. Accompagnement & formation : transfert de compétences aux équipes internes pour assurer la continuité. Résultats obtenus : Temps de contrôle réduit : amélioration notable de la productivité. Précision accrue : fiabilisation des mesures grâce à l’intégration de nouvelles technologies. Réduction des erreurs : contrôles plus rapides et répétables. Compétences préservées : maintien de la connaissance technique dans l’organisation. Facteurs clés de succès : Expertise technique d’Agaetis en développement industriel et IoT . Grande flexibilité dans la collaboration avec le client. Intégration fluide des données issues de différents équipements. Approche orientée impact et résultats mesurables. Et vous ? Vous vous interrogez sur : l’optimisation de vos processus de contrôle industriel, l’intégration de nouvelles technologies de mesure, ou la digitalisation de vos applications qualité ? 👉 Contactez nos experts pour moderniser vos contrôles industriels et accroître votre performance opérationnelle.
par David Walter 26 novembre 2025
Directus est-il l’avenir du Low Code ? 1. Comprendre le contexte : le rêve et les limites du Low Code L’essor des outils Low Code et No Code Les solutions no-code visent à simplifier complètement le processus, offrant des interfaces visuelles de type drag&drop, tandis que les plateformes low-code combinent cette simplicité avec la possibilité d’intégrer du code personnalisé pour des besoins plus avancés. Ces outils ont progressivement trouvé leur place dans les entreprises, permettant de créer des POC rapidement ou de moderniser des processus internes simples. Les premiers outils donnant accès à des fonctionnalités de développement simplifiées sont apparus dans les années 90 et début 2000. Mais par leur coût, ils étaient réservés à de grandes entreprises, mais avaient des possibilités limitées et restaient peu scalables. Les outils low code/no code comme nous les connaissons aujourd’hui se sont popularisés au début des années 2010 en réponse à la demande croissante des entreprises pour la digitalisation de processus métiers. Face à la forte demande de développeurs et à la complexité croissante des projets numériques, ces plateformes ont permis à des utilisateurs non techniques de créer des applications, automatiser des workflows et gérer des données sans écrire de code complexe. Quelques chiffres pour comprendre le phénomène Pour évaluer l’impact du no-code en France, examinons quelques statistiques significatives. Entre 2020 et 2025, le no-code est passé d'une tendance émergente à une solution adoptée par une majorité d'entreprises. Une étude réalisée par Hostinger révèle que 71 % des cadres et dirigeants français ont adopté des solutions no-code en 2025 , contre seulement 25 % en 2020. Cette progression illustre une mutation profonde des pratiques numériques. - No-code France : Cette communauté, initié par Contournement en 2019, est passée de 5 000 membres en 2020 à plus de 13 000 en 2025. Elle est la plus grande communauté francophone autour du No-code et regroupe professionnels, freelances et passionnés. - Le SFPN (Société Française des Professionnels du No-code) : Créée en 2020, son but est de fédérer et représenter le No-code au niveau national. Elle organise des événements tels que le Tour de France du No-code et le No-code Summit, et a vu ses adhérents tripler pour atteindre 1 500 membres actifs en 2025. 
Show More