NewsRoom

Matinée R&D avec Eric Matzner-Lober et Nick Hengartner

R&D 11 mars 2019

Catégories

Les équipes de DataStorm ont présenté leurs travaux de R&D interne à Eric Matzner-Lober et Nick Hengartner, deux chercheurs reconnus bien au-delà de leur communauté. Deep learning, réseaux antagonistes, NLP, interprétabilité des algorithmes de machine learning… ces regards croisés vont alimenter le plan R&D 2019 de DataStorm.

Exigeante, riche et réciproque. Voilà comment qualifier la matinée R&D que DataStorm organisait fin 2018 dans ses locaux. Exigeante, parce que « pitcher » un projet de recherche en quelques minutes devant deux experts scientifiques de haut vol ne s’improvise pas. Eric Matzner-Lober est Professeur des Universités à Rennes 2, spécialiste des estimations non paramétriques. Nick Hengartner est docteur diplômé de Berkeley et dirige un groupe de recherche à Los Alamos National Laboratory. Bref, une « saine inquiétude » était clairement palpable les jours précédant l’exercice ! Riche, parce qu’être au contact immédiat des chercheurs permet de se situer un peu en amont de l’état de l’art. « Ce sont des sujets dont on commence à parler ou qui seront explorés dans les prochaines années, leurs travaux nous permettent d’innover » dit clairement Frank Rimek, directeur R&D de DataStorm. Réciproque, « parce que nous nous inspirons de leurs travaux dans la mise en œuvre dans nos projets, ils voient donc leur travail appliqué dans l’économie et la société ». Un aller-retour entre la théorie scientifique et les applications concrètes inscrit depuis le début dans l’ADN de DataStorm.

« Nos data scientists ne sont pas là pour appliquer des packages R »

Il y avait sept sujets sur la table. Parmi eux, les incontournables réseaux de neurones profonds (deep learning). A partir des données de l’ATIH utilisées dans l’environnement CASD pour une sécurité maximale, DataStorm a créé un algorithme de recommandation pour permettre aux opérateurs médicaux de préfiltrer les 90 000 actes existants et gagner ainsi un temps précieux. Autre algorithme de ce type passé au scalpel scientifique : la reconnaissance d’images aériennes pour la gestion des chantiers d’un grand distributeur d’énergie. Alors que le sujet est encore assez récent d’un point de vue académique, on a également parlé réseaux antagonistes génératifs (GAN) que DataStorm traite de manière très appliquée avec des simulations spatio-temporelles de l’activité des services d’incendie et de secours. « Nous travaillons actuellement sur ce sujet avec le SDIS du Nord, le plus important de France » indique Benoit Ravel, directeur général de DataStorm.

Eric Matzner-Lober et Nick Hengartner avec les équipes de DataStorm.

Autre sujet particulièrement discuté du fait de l’entrée en vigueur de la RGPD : l’interprétabilité des scores et plus particulièrement la pertinence et la performance comparée d’algorithmes de machine learning type Random Forest versus XGBoost dans des environnements big data. Un sujet très porteur, générateur de nombreuses publications et sur lequel les équipes de DataStorm avaient besoin d’un retour scientifique. « Nos data scientists ne sont pas là pour appliquer des packages R, ils sont là pour les créer, les comprendre et leur donner du sens » dit en substance Benoit Ravel. Naomi et Julien, deux juniors de l’équipe, ont quant à eux présenté un « starter kit » concernant le NLP (Natural Language Processing). « C’est un sujet en plein développement. Même si beaucoup de réalisations relèvent encore du text mining, on commence à explorer de nouvelles techniques très intéressantes croisant modélisation de la connaissance et bases de données orientées graphes » souligne Frank Rimek.

Donner du sens à des algorithmes maîtrisés

Développement d’outils, recherche algorithmique, veille technologique et académique, écriture de white papers, articles, formation interne, participation à des conférences…. chez DataStorm, chaque salarié consacre 20% de son temps à des travaux de R&D. « Notre volonté de développer des algorithmes maîtrisés grâce à la compréhension de leurs mécanismes et de leur domaine de validité est une marque forte de DataStorm comme de notre maison mère (ENSAE-ENSAI-CREST) » rappelle Benoit Ravel. Ces échanges directs avec le monde de la recherche fondamentale participent de cette approche et vont bien sûr alimenter le plan R&D 2019 de DataStorm.

En savoir plus sur Eric Matzner-Lober :
https://perso.univ-rennes2.fr/eric.matzner