Un stage de recherche en data science à Tokyo, ça se passe comment ?

août 31, 2021

Dans le cadre des mes études en école d’ingénieur à l’ISIMA, j’ai eu la chance de faire mon stage de deuxième année à Tokyo, où j’ai donc passé 5 mois. J’ai effectué ce stage à l’Institut National d’Informatique (NII), institut de recherche au cœur de Tokyo, et plus précisément dans l’équipe de recherche travaillant sur le projet “Recettes de Cuisine sans Frontières” (CRWB – Cooking Recipes Without Borders), sous la direction du Pr Frederic Andres. 

NII et Flavorlens, qu’est-ce que c’est ?

Le NII – National Institute of Informatics (Institut National d’Informatique) est un institut de recherche publique japonais créé le 1 er avril 2000, qui étudie l’ensemb le des domaines touchés par l’informatique (sciences sociales, robotique, mathématiques appliquées, sécurité, théorie des graphes, intelligence artificielle, économie, etc.). Le NII a pour but de faire avancer la recherche en informatique et de faciliter l’accès du grand public aux avancées scientifiques. 

Un des projets de l’équipe CRWB est une application de réseau social appelée Flavorlens. Il s’agit d’une plateforme de partage d’expériences culinaires qui a été mis à disposition des utilisateurs d’appareils Android et iOS en août 2018. Elle permet aux utilisateurs de poster des observations avec une photographie du plat, un titre (nom du plat) et une description accompagnée d’une note. 



Logo Flavorlens


Le but de ce stage était de travailler sur l’extraction de communautés, sur des graphes représentant des données générées par les utilisateurs de Flavorlens. Même si l’application est disponible depuis quelques années, les données qu’elle génère n’avaient pas encore été analysées. L’extraction de communautés a pour objectif d’effectuer une première analyse du comportement des utilisateurs, qui pourra ensuite être utilisée de manière régulière via un système de recommandations. 


 Si l’utilisateur a dégusté le plat dont il fait la revue dans un restaurant, il peut en indiquer l’adresse ainsi que le prix. Dans le cas contraire, il peut aussi indiquer que le plat est fait maison. Les autres utilisateurs pourront alors sauvegarder ce plat dans une liste de favoris « à essayer plus tard » s’ils veulent à leur tour y goûter. 

L’originalité de Flavorlens ? Ce réseau social a été conçu spécialement pour le partage d’expériences gustatives. Son originalité repose sur le fait que l’utilisateur peut ajouter des tags d’arômes aux photographies, ce qui lui permet de communiquer le goût ou même la texture du plat. L’application se distingue aussi des autres plateformes de revue de restaurants par son fonctionnement : elle permet de donner son avis sur un plat précis plutôt que d’évaluer le restaurant dans sa globalité. Les clients n’expérimentant pas tous les plats de la carte, ce mode d’évaluation paraît plus pertinent. Les utilisateurs ont aussi la possibilité d’interagir entre eux via les observations en les aimant ou en les commentant. Ils peuvent aussi s’abonner à d’autres utilisateurs pour voir toutes leurs revues. 

Travailler au NII

NII Tokyo Building

Bâtiment du NII

Les projets de recherche au NII peuvent aussi bien concerner des sujets théoriques que des applications concrètes. Le NII étant un centre de recherche inter-universitaire, il coordonne les relations entre les institutions académiques et le monde de la recherche, des équipes internationales de chercheurs y cohabitent également. On retrouve d’ailleurs cette ouverture à l’international dans les différents programmes du NII, comme les partenariats MoU – Memorandum of Understanding (Mémorandum d’entente) avec diverses universités et écoles d’ingénieurs dans le monde, ou encore le JFLI – Japanese-French Laboratory for Informatics (Laboratoire Franco-Japonais pour l’informatique), qui est un laboratoire mixte (Unité CNRS Mixte Internationale 3527).

Comme le NII entretient des partenariats avec des universités partout dans le monde, un grand nombre de stagiaires et doctorants internationaux travaillant sur un large éventail de sujets s’y retrouvent. Même si les méthodes et rythmes de travail sont différents selon les équipes, toutes évoluent dans un environnement multiculturel. 

Le projet

Flavorlens n’a pas encore de système de recommandation ou de création de communautés fortes : même si les utilisateurs peuvent s’abonner entre eux, ils ne peuvent pas créer de groupes fermés ou privés pour partager leurs expériences avec un nombre restreint d’utilisateurs. Dans ce contexte, mon stage abordait donc le problème de l’extraction de communautés.

Graphe avant extraction

La méthode d’extraction de communautés mise en place peut être découpée en 4 étapes :


  • Étape 1 : Extraire les communautés avec une méthode concentrée sur le principe de mutualité. Ceci permet d’obtenir un graphe avec des clusters possédant un grand nombre de connexions mutuelles internes et très peu de connexions avec les autres clusters.

Etape 1

  • Étape 2 : Regrouper les nœuds fantômes et satellites respectivement dans une communauté fantôme et une communauté satellite. Un nœud fantôme est défini comme un nœud du graphe n’étant connecté avec aucun autre nœud, un nœud satellite est défini comme un nœud du graphe connecté de manière mutuelle avec aucun autre nœud. Ces deux communautés sont justifiées par le fait que leurs membres expriment un comportement similaire sur le réseau social.

  • Étape 3 : Séparer la communauté satellite en deux communautés qui contiennent respectivement les nœuds satellites qui possèdent des arcs entrants et sortants.

  • Étape 4 : Créer une classification hiérarchique en deux étapes pour les deux communautés générées à l’étape 3. Premièrement, en créant des communautés fondées sur le cluster sur lequel les nœuds satellites sont connectés. Tous les nœuds satellites connectés à un même cluster se retrouveront donc dans une même communauté. Dans un second temps, un processus de fusion itératif des sous-communautés satellites créées est exécuté: à chaque itération, les deux communautés les plus similaires fusionnent. Le processus itératif se termine quand toutes les communautés satellites ont fusionné en une seule communauté regroupant l’ensemble des nœuds satellites du graphe. Comme il est souvent impossible de savoir à l’avance quand arrêter le processus de fusion pour avoir les communautés les plus pertinentes, chaque itération du processus est sauvegardée dans une classification hiérarchique où il est possible d’accéder à toutes les combinaisons de communautés créées par le processus.

Etape 4


 Opportunités et conclusion

Une partie de mon temps de travail au NII a été consacrée à assister à des présentations de chercheurs travaillant ou en visite au NII lorsque le sujet pouvait être intéressant pour le projet CRWB ou pour ma formation. Une semaine a en plus été dédiée à participer à la formation Scientific Communication in Practice (Communication Scientifique en Pratique), organisée par EURAXESS Japon et ELSI. Cette formation était centrée sur la découverte des différents types de subventions disponibles pour les chercheurs européens et les chercheurs au Japon, l’écriture académique en anglais pour les publications scientifiques, mais aussi des demandes de subventions. Moins académique, cette partie du travail était également importante et intéressante; elle m’a permis de prendre conscience des outils et fonds disponibles pour le financement des chercheurs en Europe et au Japon, mais aussi de mettre en œuvre et développer d’autres compétences comme la vulgarisation et la communication scientifique.

J’ai aussi eu l’occasion de présenter mon travail et le projet Flavorlens à plusieurs occasions, notamment pendant la journée portes ouvertes du NII mais aussi lors d’une conférence à Würzburg en Allemagne.


 Ce stage a donc été pour moi une excellente occasion de découvrir le monde de la recherche, ce qui m’a permis de me conforter dans ma décision de poursuite d’études en doctorat. Cette expérience culturellement enrichissante m’a de plus beaucoup apporté d’un point de vue personnel. 

Ressources Agaetis

par David Walter 16 févr., 2024
OpenAI, a récemment dévoilé SORA, un outil de génération de vidéo. SORA monte encore une marche, offrant des capacités de génération de vidéos réalistes. Cet article explore les caractéristiques clés de SORA, son impact potentiel sur diverses industries, les points de réflexions et l'impact pour l'avenir de la création de contenu. Qu'est-ce que SORA ? SORA est une interface avancée conçue par OpenAI qui permet de générer des séquences vidéo à partir de descriptions textuelles simples. Utilisant des techniques de pointe en matière d'intelligence artificielle et d'apprentissage profond, SORA est capable de comprendre des commandes complexes et de les traduire en contenus visuels impressionnants. Une qualité de génération inégalée La capacité de SORA à générer des vidéos époustouflantes souligne un tournant dans le domaine de la production vidéo, où la qualité et la créativité ne sont plus entravées par des contraintes techniques ou financières. Cette avancée s'inscrit dans un contexte plus large où l'IA transforme profondément les industries créatives, offrant des outils puissants pour la transcription, le doublage, la création d'avatars générés par IA, et même la suppression de fonds vidéo, rendant ces processus plus accessibles et flexibles​​​​​​. Des outils comme Descript et Adobe Premiere Pro intègrent des fonctionnalités AI pour améliorer le processus d'édition vidéo, depuis la rotation des yeux jusqu'à la génération de transcriptions et sous-titres​​. De même, la comparaison entre DALL-E 3 et Midjourney montre comment l'IA peut capturer des détails et des ambiances spécifiques dans les images, un principe également applicable à la vidéo​​. La révolution du streaming vidéo illustre comment l'adaptation numérique bouleverse les modèles économiques traditionnels, offrant une perspective sur la manière dont les technologies génératives pourraient remodeler le paysage médiatique​​. L'impact de ces technologies dépasse la simple création de contenu ; elles remodèlent également notre compréhension de la créativité et ouvrent de nouvelles voies pour l'expression artistique et la communication. Avec des outils comme SORA, la barrière entre l'idée et sa réalisation se réduit, permettant à un plus grand nombre de personnes de donner vie à leurs visions créatives sans les contraintes traditionnelles de la production vidéo. Cet élan vers une qualité de génération inégalée par l'IA soulève des questions importantes sur l'avenir du contenu créatif et la manière dont nous valorisons l'interaction entre l'humain et la technologie dans le processus créatif. Alors que nous explorons ces nouvelles frontières, il est crucial de rester attentifs aux implications éthiques et aux défis que ces technologies posent, tout en reconnaissant leur potentiel pour enrichir notre monde visuel et narratif.
Airflow PostgreSQL MongoDB
par Ikram Zouaoui 07 févr., 2024
Integration de technologies pour optimiser les flux de travail : L'article met en lumière une approche combinée utilisant Airflow, PostgreSQL, et MongoDB pour améliorer l'efficacité des flux de travail liés aux données.
Show More
Share by: