Statisticien et data scientist, deux métiers à ne pas confondre

7 juillet 2020

L a synonymie n’existe pas, et c’est peut-être bien là l’information fondamentale de cet article. Nous nous construisons avec l’idée que deux mots distincts peuvent avoir le même sens. Nous sommes régulièrement encouragés à éviter les répétitions par tous les moyens, quitte à utiliser un mot qui n’exprime pas tout à fait notre pensée. Nombreux sont pourtant les universitaires à répéter inlassablement que la langue française est riche et complexe, et qu’il serait absurde de créer deux mots différents ayant exactement le même sens.


Cet article a pour objectif d’expliquer pourquoi les métiers de data scientist et de statisticien ne peuvent pas être confondus ou considérés comme identiques. On parle donc de comparer un mot de la langue française et… un anglicisme. Le problème avec cette dernière catégorie, c’est qu’on se croit vite tout permis. Quand on sait en plus qu’il s’agit d’un anglicisme dont le sens est en constante évolution, on a envie de jeter le stylo (ou le clavier) et d’abandonner face à la difficulté de la tâche. Il est pourtant primordial de comprendre pourquoi le terme de data scientist a émergé et en quoi ce métier diffère des autres métiers existants, en particulier celui de statisticien.


Nous ne chercherons pas ici à comparer le champ des statistiques avec celui de la data science. Cette précision est importante car la data science n’est pas composée exclusivement de data scientists. On y trouve pêle-mêle des data engineers, des machine learning engineers, des data analysts, des products owners et même des statisticiens. C’est à s’y perdre n’est-ce pas ? On ne cherche pas non plus à comparer des outils de machine learning avec des outils statistiques. Non, il s’agit bien de traiter des différences entre deux métiers.


La première des différences est évidente : l’un de ces métiers est beaucoup plus ancien que l’autre. Les premiers statisticiens  (1)  sont apparus durant le XVIIIème siècle (Thomas Bayes pour n’en citer qu’un), avec une réelle émergence de la discipline le siècle suivant. Les termes de data science et data scientist ne sont utilisés que beaucoup plus tardivement à la fin du XXème siècle, en 1987  (2) .

Une autre différence majeure est que les compétences de recherche sont indispensables pour exercer le métier de data scientist. La première raison à cela est la diversité et la constante augmentation du nombre d’outils. Un data scientist doit être en perpétuelle montée en compétences tout en maintenant une routine de veille sur toutes les innovations du domaine. Cela est en tout point comparable à la capacité d’un chercheur à effectuer l’état de l’art de son champ de recherche à tout moment. La seconde raison justifiant la nécessité de ces compétences est la structuration même des missions des data scientists. Ces dernières peuvent démarrer à un stade où le bénéficiaire n’a pas encore défini précisément son besoin ou que sa formulation n’est pas en adéquation avec les outils disponibles.


Dire : “J’ai besoin de simuler l’ensemble de la société humaine à la maille de l’être humain” n’est pas un besoin en adéquation avec les possibilités de notre époque. C’est au data scientist d’accompagner ce dernier pour identifier les progressions possibles à l’aide des différentes sources de données voire parfois d’identifier de nouvelles sources de données que l’interlocuteur n’avait pas identifiées. Tout ce travail préliminaire est par nature absent du métier de statisticien dont le travail est d’appliquer des outils de statistiques à un problème cadré et bien défini.


Les outils du statisticien – le logiciel R étant l’un des plus connus – n’en restent pas moins inclus dans ceux du data scientist, qui doit par conséquent avoir des compétences en statistiques. La question qui vient immédiatement est celle de la nature des autres outils du data scientist. Ces derniers n’émergent pas directement du champ des statistiques mais de la théorie de l’apprentissage statistique. Vous l’aurez compris, ce sont ceux que nous regroupons habituellement dans le champ du machine learning. À la différence des outils du statisticien, les outils de machine learning ont pour objectif d’entraîner un algorithme pour prédire de futurs résult ats (3), sans nécessairement que les étapes de calcul soient interprétables. Cette approche ayant été développée conjointement avec l’augmentation de la puissance de calcul informatique, aucun de ces outils ne peut être utilisé autrement qu’avec un ordinateur. 



Une dernière grande différence entre le métier de data scientist et celui de statisticien est leur caractère pluridisciplinaire, beaucoup plus développé dans le premier cas que dans le second. Il est en effet requis pour un data scientist d’avoir une bonne connaissance d’un ou plusieurs champs disciplinaires scientifiques (physique, chimie, biologie…). Il est même de plus en plus fréquent d’étendre cette recherche de pluridisciplinarité au-delà des sciences dites “dures”, notamment du fait de l’émergence des systèmes complexes ou encore de l’éconophysique, pour n’en citer que deux. C’est d’ailleurs cette différence qui motive les entreprises à recruter des data scientists dans des domaines plus variés que le simple domaine des mathématiques ou de l’informatique.


Nous avons par cet article voulu évoquer brièvement les différences les plus importantes entre les deux métiers. Cela ne nous a pas empêché pour autant de faire ressortir les points communs qui les relient et de mettre en valeur le fait que le métier de data scientist ne pourrait exister sans l’émergence quelques siècles plus tôt du domaine des statistiques ou plus récemment de la forte augmentation de la puissance de calcul.


Gardons également à l’esprit que la Data Science tout entière est en perpétuelle évolution et qu’aucun consensus général n’existe sur sa définition. La réponse sera en effet différente que vous vous placiez dans un grand groupe ou une petite start up ou bien encore que vous vous attachiez plus à la sémantique qu’aux considérations des diverses personnes autour de vous.




(1) : Bien que l’on pourrait dater la première apparition des statistiques à l’époque des mathématiques précolombiennes, nous n’évoquerons ici que les mathématiques modernes (qui correspond au réel avènement du champ des statistiques mathématiques).

(2) :  Data Science and Its Applications, préface, Academic Press, 1995.pdf  

(3) : Il s’agit ici d’un constat global. Il existe en effet des algorithmes à la frontière entre statistique et machine learning, comme les algorithmes de clustering.

Ressources Agaetis

par David Walter 28 août 2025
Le contexte du projet Un grand groupe du secteur de l’énergie en France cherchait à exploiter les données massives issues des compteurs Linky. L’ambition : concevoir une plateforme dédiée au développement et au déploiement de micro-applications , tout en s’appuyant sur une infrastructure technique avancée et une méthodologie agile pour soutenir cette transformation. L’objectifs L’objectif principal était de créer un environnement robuste et évolutif permettant : d’analyser efficacement les données des points de mesure du réseau, de faciliter le développement rapide de micro-services, et de renforcer l’agilité des équipes grâce à des pratiques modernes de CI/CD. Durée de missions Plusieurs mois d’intervention , mobilisant les expertises Agaetis en infrastructure, automatisation et méthodes agiles pour cadrer, déployer et stabiliser la plateforme. Mise en oeuvre Pour atteindre ces objectifs, Agaetis a mis en place une approche complète : Installation et configuration d’infrastructure : mise en place d’un cluster Kafka/Mesos/Hadoop pour le traitement massif des données. Automatisation et scalabilité : développement de rôles Ansible pour permettre l’auto-scaling du cluster Mesos/Marathon/Zookeeper , assurant une gestion simplifiée par les équipes d’exploitation. Conseil en méthodologies agiles : alignement de la conception et du développement des micro-services avec les meilleures pratiques agiles. CI/CD intégrée : mise en œuvre de pipelines d’intégration, de livraison et de déploiement continus avec Jenkins et GitLab . Résultat obtenu La solution déployée a permis : la mise en place d’une plateforme analytique robuste pour interpréter efficacement les données Linky, une infrastructure flexible et évolutive , garantissant une gestion optimale des ressources, une accélération du développement grâce à l’adoption de méthodologies agiles, une amélioration significative des processus CI/CD , renforçant la productivité et la qualité des livrables. Facteurs clés de succès Expertise technique des équipes Agaetis sur les environnements distribués complexes. Automatisation et scalabilité intégrées dès la conception, facilitant l’exploitation à long terme. Adoption des méthodologies agiles , renforçant la collaboration et la rapidité d’exécution. Partenariat de confiance avec le client, assurant une solution sur mesure et durable. Et vous ? Vous vous interrogez sur : la valorisation de vos données métiers, la mise en place d’une infrastructure évolutive pour vos applications, ou l’intégration de méthodologies modernes pour accélérer vos projets IT ? 👉 Contactez nos experts pour découvrir comment Agaetis peut transformer vos défis en leviers d’innovation.
par David Walter 28 août 2025
Le contexte du projet Platform Garden , une startup internationale, souhaitait exploiter ses données pour créer de la valeur et renforcer sa stratégie d’innovation. L’enjeu majeur était d’exploiter la data visualization et d’identifier comment les données existantes et futures pouvaient ouvrir de nouvelles opportunités de croissance . L’objectifs Les ambitions principales de Platform Garden étaient de : analyser et enrichir un gisement de données sur les plantes et arbustes, valoriser ces données en développant de nouveaux services et fonctionnalités, et intégrer efficacement ces données dans les systèmes existants tout en optimisant les coûts technologiques et financiers. Durée de missions Mission en plusieurs phases , de l’idéation jusqu’au développement de nouvelles fonctionnalités, en accompagnement continu avec les équipes de Platform Garden. Mise en oeuvre Agaetis a déployé une approche progressive et collaborative : Phase d’idéation et cadrage des besoins : animation d’ateliers pour qualifier et prioriser les attentes de Platform Garden. Recherche et analyse des sources de données : exploration des données existantes et évaluation de leur pertinence pour l’intégration dans l’écosystème de la startup. Développement de nouvelles fonctionnalités : conception de services innovants, tels que des algorithmes prédictifs, afin d’exploiter pleinement la valeur des données collectées. Résultat obtenu La mission a permis : Enrichissement du gisement de données : une base de données plus complète, ouvrant la voie à de nouvelles découvertes et usages. Création de valeur et nouveaux services : développement de fonctionnalités inédites comme Jardi’Alerte ou le futur Végéscore , offrant un avantage compétitif. Innovation continue : mise en place d’un processus évolutif, garantissant une adaptation constante aux technologies et aux besoins du marché. Facteurs clés de succès Approche agile et progressive d’Agaetis. Ateliers collaboratifs favorisant l’alignement des besoins et des priorités. Expertise data et innovation appliquée à un domaine spécifique et émergent. Capacité à transformer la donnée en services concrets , différenciants pour les clients finaux. Et vous ? Vous vous interrogez sur : la valorisation de vos données pour créer de nouveaux services, l’intégration de fonctionnalités prédictives dans vos produits, ou la mise en place d’une stratégie d’innovation data adaptée à votre secteur ? 👉 Contactez nos experts pour transformer vos données en leviers de croissance et d’innovation.
Show More