Road map of an industrial Ph.D. at Agaetis

27 février 2023

Mid-April 2021, I started an industr ial Ph.D. (CIFRE) funded by Agaetis and at LIMOS on the subject of data quality evaluation. Industrial Ph.Ds. are funded by companies that benefit from their contribution to companies’ industrial development, and the Ph.D. candidate divides their time between the company and their lab. My time is divided equally between Agaetis and Limos, with 2-3 days a week spent on each location.

Why is data quality important ?

The aspect of data quality I’m studying is sometimes also referred to as the Garbage-In-Garbage-Out (GIGO) problem. The idea behind this name is that even a very good machine learning model won’t give useable results if the data used to train it is of bad quality. It’s therefore crucial to be able to assess data quality. However, doing so usually requires the input of an expert in said data or complex metadata that is often unavailable or costly to obtain. Moreover, traditional metrics for data quality such as accuracy and f1-score heavily rely on the existence of good quality testing data, which doesn’t always exist.

My research work so far

The first 6 months of my Ph.D. were spent on a bibliographic study of the state of the art of data quality. This work prompted a few observations: data can hold very different types of errors (we identified 12 categories), and at various degrees of presence. This diversity calls for different approaches to the process of data cleaning and repairing. Therefore, we observe a wide array of data cleaning and repairing methods that require various metadata, ranging from simple to complex to acquire.

This prompted our first research question: Is it always better to repair data? We investigated this question through 5 criteria:

C1: the perceived difficulty of using a repairing method according to experts  ;
C2: the impact of the degradation of data on classification tasks  ;
C3: the impact of the type of error present on classification tasks  ;
C4: the effectiveness of the repairing too l ;
C5: the impact of the classification model used.

The ins and outs of this study are presented in a more detailed version in the paper we presented at the conference IDEAL 2022 (published in its proceedings). In this paper, we proposed an evaluation process that breaks down repairing methods into elementary tasks describing the actions executed to apply them (C1), including creating the metadata needed to use them. Given an error type and a repairing method, we build a tree detailing the steps of the repairing method. We then populate this tree with elements from other repairing methods for this error type, and iterate with different trees for each error type. To quantify the difficulty of each elementary task, we then asked a panel of 8 industry data scientists to rank them on a 4 values scale: easy, medium, medium+, and hard. We registered the weighted average of each elementary task as its difficulty score. We then used those weighted averages to compute difficulty scores for the whole repairing method.

To study criteria C2 to C5, we conducted an experiment where we deteriorated dataset by injecting known percentages of specific error types, to observe how these changes would affect classification task accuracies and F1 scores on various machine learning models.

To go back to our first research question: Is it always better to repair data? We found there is no answer covering all cases, but we were able to answer this question for specific cases (mainly for very low and very high error percentages). Moreover, our work on measuring the difficulty to use a repairing method provides a useful tool for decision-making when the repairing process to follow is unclear.

Opportunities working towards a Ph.D. brought me

So far, working towards this Ph.D. allowed me to participate in a variety of events. For instance, I had the opportunity to present publications at conferences such as IDEAL2022 , in Manchester, and BDA2022 , in Clermont-Ferrand. These were great opportunities to exchange with other Ph.D. candidates and researchers in the domain.
I was also able to present my work to industry clients working in collaboration with data scientists at Agaetis. This was an interesting experience as it helped me contextualize my work into concrete applications and perspectives. I also taught an introductory course to machine learning and python. Teaching was a completely new experience for me. It was very instructive as I got to go back to the basic concepts and think about how to explain them.

Future work

I am currently working on a new conference paper to present a multidimensional quality metric. The objective behind this metric is to measure data quality for classification tasks without any metadata or a perfect testing dataset. Future work could focus on studying how to assess the repairability of data.

< Post plus ancien

Post plus récent >

Ressources Agaetis

Industrie & IoT : Application de contrôle dimensionnel et qualité dans l'aérospatial

par Achats Agaetis • 26 novembre 2025

Le contexte du projet : Groupe Aérospatial souhaitait optimiser le temps de contrôle dimensionnel des réservoirs de son lanceur spatial. Les méthodes traditionnelles, longues et peu satisfaisantes, ralentissaient la production et augmentaient les risques d’erreurs. Le besoin était de développer une application de contrôle qualité et dimensionnel intégrant de nouveaux moyens de mesure plus rapides et précis. L’objectifs : L’objectif principal était de concevoir et déployer une application installée sur un PC concentrateur capable de : lancer différents programmes de contrôle dimensionnel, intégrer des technologies de mesure avancées (profilomètres lasers, trackers laser), et améliorer la précision et la répétabilité des contrôles. Durée de mission : Mission de plusieurs mois, de la conception logicielle à la formation des équipes, en passant par l’intégration et les tests. Mise en œuvre : Agaetis a déployé une approche technique et collaborative : Développement de l’application : architecture logicielle adaptée aux besoins d’intégration industrielle. Collecte et traitement des données : intégration des mesures issues des machines à commande numérique, trackers laser et profilomètres. Optimisation des processus : automatisation des contrôles pour gagner en rapidité et réduire les erreurs. Accompagnement & formation : transfert de compétences aux équipes internes pour assurer la continuité. Résultats obtenus : Temps de contrôle réduit : amélioration notable de la productivité. Précision accrue : fiabilisation des mesures grâce à l’intégration de nouvelles technologies. Réduction des erreurs : contrôles plus rapides et répétables. Compétences préservées : maintien de la connaissance technique dans l’organisation. Facteurs clés de succès : Expertise technique d’Agaetis en développement industriel et IoT . Grande flexibilité dans la collaboration avec le client. Intégration fluide des données issues de différents équipements. Approche orientée impact et résultats mesurables. Et vous ? Vous vous interrogez sur : l’optimisation de vos processus de contrôle industriel, l’intégration de nouvelles technologies de mesure, ou la digitalisation de vos applications qualité ? 👉 Contactez nos experts pour moderniser vos contrôles industriels et accroître votre performance opérationnelle.

Directus est-il l’avenir du Low Code ?

par David Walter • 26 novembre 2025

Directus est-il l’avenir du Low Code ? 1. Comprendre le contexte : le rêve et les limites du Low Code L’essor des outils Low Code et No Code Les solutions no-code visent à simplifier complètement le processus, offrant des interfaces visuelles de type drag&drop, tandis que les plateformes low-code combinent cette simplicité avec la possibilité d’intégrer du code personnalisé pour des besoins plus avancés. Ces outils ont progressivement trouvé leur place dans les entreprises, permettant de créer des POC rapidement ou de moderniser des processus internes simples. Les premiers outils donnant accès à des fonctionnalités de développement simplifiées sont apparus dans les années 90 et début 2000. Mais par leur coût, ils étaient réservés à de grandes entreprises, mais avaient des possibilités limitées et restaient peu scalables. Les outils low code/no code comme nous les connaissons aujourd’hui se sont popularisés au début des années 2010 en réponse à la demande croissante des entreprises pour la digitalisation de processus métiers. Face à la forte demande de développeurs et à la complexité croissante des projets numériques, ces plateformes ont permis à des utilisateurs non techniques de créer des applications, automatiser des workflows et gérer des données sans écrire de code complexe. Quelques chiffres pour comprendre le phénomène Pour évaluer l’impact du no-code en France, examinons quelques statistiques significatives. Entre 2020 et 2025, le no-code est passé d'une tendance émergente à une solution adoptée par une majorité d'entreprises. Une étude réalisée par Hostinger révèle que 71 % des cadres et dirigeants français ont adopté des solutions no-code en 2025 , contre seulement 25 % en 2020. Cette progression illustre une mutation profonde des pratiques numériques. - No-code France : Cette communauté, initié par Contournement en 2019, est passée de 5 000 membres en 2020 à plus de 13 000 en 2025. Elle est la plus grande communauté francophone autour du No-code et regroupe professionnels, freelances et passionnés. - Le SFPN (Société Française des Professionnels du No-code) : Créée en 2020, son but est de fédérer et représenter le No-code au niveau national. Elle organise des événements tels que le Tour de France du No-code et le No-code Summit, et a vu ses adhérents tripler pour atteindre 1 500 membres actifs en 2025.