Le fil

Matinée R&D avec Eric Matzner-Lober et Nick Hengartner

R&D - 11 mars 2019

Les équipes de DataStorm ont présenté leurs travaux de R&D interne à Eric Matzner-Lober et Nick Hengartner, deux chercheurs reconnus bien au-delà de leur communauté. Deep learning, réseaux antagonistes, NLP, interprétabilité des algorithmes de machine learning… ces regards croisés vont alimenter le plan R&D 2019 de DataStorm.

Exigeante, riche et réciproque. Voilà comment qualifier la matinée R&D que DataStorm organisait fin 2018 dans ses locaux. Exigeante, parce que « pitcher » un projet de recherche en quelques minutes devant deux experts scientifiques de haut vol ne s’improvise pas. Eric Matzner-Lober est Professeur des Universités à Rennes 2, spécialiste des estimations non paramétriques. Nick Hengartner est docteur diplômé de Berkeley et dirige un groupe de recherche à Los Alamos National Laboratory. Bref, une « saine inquiétude » était clairement palpable les jours précédant l’exercice ! Riche, parce qu’être au contact immédiat des chercheurs permet de se situer un peu en amont de l’état de l’art. « Ce sont des sujets dont on commence à parler ou qui seront explorés dans les prochaines années, leurs travaux nous permettent d’innover » dit clairement Frank Rimek, directeur R&D de DataStorm. Réciproque, « parce que nous nous inspirons de leurs travaux dans la mise en œuvre dans nos projets, ils voient donc leur travail appliqué dans l’économie et la société ». Un aller-retour entre la théorie scientifique et les applications concrètes inscrit depuis le début dans l’ADN de DataStorm.

« Nos data scientists ne sont pas là pour appliquer des packages R »

Il y avait sept sujets sur la table. Parmi eux, les incontournables réseaux de neurones profonds (deep learning). A partir des données de l’ATIH utilisées dans l’environnement CASD pour une sécurité maximale, DataStorm a créé un algorithme de recommandation pour permettre aux opérateurs médicaux de préfiltrer les 90 000 actes existants et gagner ainsi un temps précieux. Autre algorithme de ce type passé au scalpel scientifique : la reconnaissance d’images aériennes pour la gestion des chantiers d’un grand distributeur d’énergie. Alors que le sujet est encore assez récent d’un point de vue académique, on a également parlé réseaux antagonistes génératifs (GAN) que DataStorm traite de manière très appliquée avec des simulations spatio-temporelles de l’activité des services d’incendie et de secours. « Nous travaillons actuellement sur ce sujet avec le SDIS du Nord, le plus important de France » indique Benoit Ravel, directeur général de DataStorm.

Eric Matzner-Lober et Nick Hengartner avec les équipes de DataStorm.

Eric Matzner-Lober et Nick Hengartner avec les équipes de DataStorm.

Autre sujet particulièrement discuté du fait de l’entrée en vigueur de la RGPD : l’interprétabilité des scores et plus particulièrement la pertinence et la performance comparée d’algorithmes de machine learning type Random Forest versus XGBoost dans des environnements big data. Un sujet très porteur, générateur de nombreuses publications et sur lequel les équipes de DataStorm avaient besoin d’un retour scientifique. « Nos data scientists ne sont pas là pour appliquer des packages R, ils sont là pour les créer, les comprendre et leur donner du sens » dit en substance Benoit Ravel. Naomi et Julien, deux juniors de l’équipe, ont quant à eux présenté un « starter kit » concernant le NLP (Natural Language Processing). « C’est un sujet en plein développement. Même si beaucoup de réalisations relèvent encore du text mining, on commence à explorer de nouvelles techniques très intéressantes croisant modélisation de la connaissance et bases de données orientées graphes » souligne Frank Rimek.

Donner du sens à des algorithmes maîtrisés

Développement d’outils, recherche algorithmique, veille technologique et académique, écriture de white papers, articles, formation interne, participation à des conférences…. chez DataStorm, chaque salarié consacre 20% de son temps à des travaux de R&D. « Notre volonté de développer des algorithmes maîtrisés grâce à la compréhension de leurs mécanismes et de leur domaine de validité est une marque forte de DataStorm comme de notre maison mère (ENSAE-ENSAI-CREST) » rappelle Benoit Ravel. Ces échanges directs avec le monde de la recherche fondamentale participent de cette approche et vont bien sûr alimenter le plan R&D 2019 de DataStorm.

 

Eric Matzner-LoberEn savoir plus sur Eric Matzner-Lober :
https://perso.univ-rennes2.fr/eric.matzner

 

 

 

Nick HengartnerEn savoir plus sur Nick Hengartner :
https://www.researchgate.net/profile/Nicolas_Hengartner

R&D
Voici shinydrive, le dernier-né des packages Datastorm

Dans la famille des packages shiny de Datastorm, voici le petit dernier : shinydrive. Le package shinydrive a été développé pour répondre à un besoin simple : faciliter le partage de fichiers entre différents utilisateurs d’une application R/shiny.

R&D
Functional Data : un potentiel encore peu exploré

La dernière matinée R&D de Datastorm était notamment consacrée aux données fonctionnelles. Elles peuvent apporter de nouvelles pistes de modélisation pour la prévision ou l’analyse. Le point avec Benoit Ravel, CEO de Datastorm.

Replay webinar : Anticiper les dérives de vos Modèles de Machine Learning grâce au MLOps

La multiplication des projets data et des algorithmes expose les entreprises à un risque aujourd’hui clairement identifié : la baisse de performance des modèles de Machine Learning. Il est pourtant capital d’anticiper les dérives de vos modèles et le Machine Learning Operations (MLOps) peut vous y aider. Dans ce nouveau webinaire, les équipes de Datastorm vous expliquent comment.

Toute l'expertise du Groupe ENSAE-ENSAI

Plateau de Saclay
5 Avenue Henry-Le-Chatelier
91120 PALAISEAU - FRANCE

Paris
24 rue Barbès
92120 MONTROUGE - FRANCE