Le fil

Projets Data Science : « Un bon design de code facilite l’industrialisation »

Team - 15 avril 2020

Après un cursus brillant outre-Atlantique et en Europe, Thomas Zamojski aurait pu devenir chercheur en mathématiques. C’était sans compter sur son besoin de confronter la théorie au réel. Lead Data Scientist chez Datastorm, il accompagne aujourd’hui les entreprises dans l’industrialisation de leurs projets Data Science.

Thomas, ton cursus académique est impressionnant. Qu’est-ce qui a guidé tes choix tout au long de ton parcours ?
J’ai effectivement la chance d’avoir étudié à McGill et à l’Université de Chicago, deux des plus grandes et influentes universités au monde. Chicago a donné plusieurs Prix Nobel d’Economie et médailles Fields. Il y a donc, comment dire, un certain héritage dans le doctorat en mathématiques que j’ai obtenu outre-Atlantique. L’Ecole Polytechnique de Lausanne est également une référence. Toutefois, mes choix ont surtout été guidés par une grande curiosité scientifique et l’envie de rejoindre des équipes de recherche dont les travaux pouvaient répondre à cette curiosité. Ainsi pour mon postdoc en 2010, j’ai rejoint EPFL parce que l’Ecole héberge un des meilleurs laboratoires de mathématiques sur la théorie analytique des nombres, un domaine que je voulais explorer en profondeur.

La voie était tracée pour devenir chercheur…
C’est une carrière que j’ai bien sûr envisagée. Mais au fil du temps, mon intérêt pour les mathématiques appliquées a grandi, j’avais besoin de confronter la théorie au réel. Après mon postdoc, j’ai décidé de rester en Europe pour suivre une spécialisation en Statistiques et Data Science. Le Master Big Data de l’ENSAI s’est révélé idéal par sa solidité scientifique et sa dimension professionnelle. J’ai effectué mon stage de master chez Datastorm qui m’a immédiatement proposé un poste de Data Scientist. Voilà comment je ne suis pas devenu chercheur.

Quelle expertise revendiques-tu aujourd’hui chez Datastorm ?
Je conçois, teste et mets en production des modèles de machine learning pour nos clients, avec une forte expertise sur le design de code, particulièrement en Python.

Thomas Zamojski

Donc, Data Scientist… ou Data Architect ?
Je suis avant tout Data Scientist avec un incontestable background mathématique. Mais quand un POC* a fait ses preuves, le plus difficile est de réussir à le capitaliser. Dans 70 % des cas, l’échec est dû au défaut de synchronisation entre les métiers et notamment à un design de code qui freine l’appropriation technique du projet par les métiers. Un bon design de code facilite grandement l’industrialisation d’un projet Data Science. Aujourd’hui, mon expertise intègre donc systématiquement cette dimension qui touche effectivement à l’architecture des données.

Sur quels projets travailles-tu en ce moment ?
Je pilote plusieurs projets liés à la maintenance prédictive en temps réel dans l’industrie. Un client gestionnaire d’un réseau de transport de gaz s’apprête à mettre en production un modèle sur la probabilité de défaut des canalisations que nous avons construit avec leurs experts métiers. La prochaine étape est d’intégrer de nouvelles données géo-spatiales afin que le modèle gagne encore en robustesse. J’accompagne également un autre acteur de l’énergie dans l’industrialisation de ses outils data, en particulier les technologies de conteneurisation. J’interviens donc aussi bien sur la phase Exploratoire des projets, que sur la phase Pilote ou Industrialisation. En fait, je me retrouve parfaitement dans le « Think, Model, Build » que revendique Datastorm. C’est le processus que devraient suivre tous les projets data.

Quand on conçoit et industrialise des modèles de machine learning, la question de l’interprétabilité et de l’explicabilité se pose en permanence.
Construire un modèle très performant est évidemment stimulant pour un Data Scientist. Comprendre et expliquer pourquoi une intelligence artificielle donne un résultat plutôt qu’un autre est tout aussi important car un modèle interprétable et explicable permet déjà un meilleur monitoring. La transparence facilite également le dialogue entre les métiers que j’évoquais tout à l’heure. Les approches de type SHAP (SHapley Additive exPlanations) permettent ainsi d’expliquer un modèle de machine learning, quel que soit le modèle. Donc oui, robustesse, monitoring et interprétabilité évitent les IA façon « boîte noire » et instaurent un climat de confiance indispensable à la bonne marche d’un projet Data Science.

Côté client et métiers, comment faire pour ne pas limiter les idées de cas d’usage à quelques initiés ?
La prise de décision éclairée par l’analyse statistique et la Data Science est devenue un enjeu pour de nombreux métiers d’ingénierie, en comprendre les mécanismes de base est donc essentiel. Nous venons de boucler le programme « Data Science for Everyone » pour une grande entreprise industrielle. En nous appuyant sur l’expertise académique et scientifique de notre écosystème sur le Plateau de Saclay, nous avons créé une série de modules vidéo et infographiques qui permettent de se familiariser avec les concepts-clés des Statistiques, de la Data Science et de l’IA. En mode micro learning, 700 personnes suivent aujourd’hui ce Programme chez notre client. Cette démarche d’acculturation est nécessaire pour doter chacun d’une Data Literacy commune et fiable, loin des fantasmes et de la science-fiction.

Justement, de ton point de vue, qu’est-ce qui relève du possible ou de la science-fiction quand on parle d’IA ?
L’IoT au service de la médecine ou de l’énergie est un secteur très prometteur. En donnant aux objets connectés des capacités d’apprentissage autonome, l’IA peut nous faire entrer dans un nouveau paradigme assez rapidement. A l’inverse, la réalité du véhicule autonome est selon moi beaucoup plus lointaine car elle suppose des décisions en temps réel qui impliquent trop de facteurs. L’industrialisation n’est clairement pas pour demain.

 

Thomas Zamojski en 5 dates :

  • 2004 : Bachelor of Science in Mathematics & Computer Science, McGill University, Montréal
  • 2010 : PhD in Mathematics, The University of Chicago
  • 2010-2012 : Postdoctoral Fellow, Ecole Polytechnique Fédérale de Lausanne
  • 2016 : Master of Science in Big Data, ENSAI
  • 2016 : Datastorm

 

*POC : Proof of Concept

R&D
Enedis et Datastorm : l’économétrie et la recherche au service de la décision stratégique

La Direction de la Stratégie d’Enedis s’appuie sur les travaux économétriques de Datastorm pour mieux comprendre les phénomènes d’élasticité-prix de l’électricité. Laurent Gilotte, Chargé de mission Stratégie chez Enedis, nous éclaire sur l’apport de ces outils et méthodes dans l’aide à la décision. Laurent Gilotte, quel est le rôle de la Direction de la Stratégie […]

Open innovation via le Business Data Challenge avec Cdiscount

Chez Datastorm, nous sommes fiers d’avoir assuré le pilotage opérationnel du Business Data Challenge ENSAE-Cdiscount. Un excellent moyen de faire entrer l’open innovation dans la stratégie data des entreprises. Pendant quatre mois, quatre groupes d’élèves de l’ENSAE ont mis leur expertise en Data Science et en Economie au service du pricing chez le leader français […]

R&D
R&D : l’agrément CIR de Datastorm renouvelé

Le Ministère de l’Enseignement supérieur, de la Recherche et de l’Innovation renouvelle l’agrément Crédit Impôt Recherche de Datastorm pour la période 2020-2022. Le renouvellement de l’agrément Crédit Impôt Recherche pour 3 ans distingue la filiale d’expertise et de conseil du groupe ENSAE-ENSAI dans sa capacité à accompagner l’innovation des entreprises dans un contexte de valorisation […]

Toute l'expertise du groupe ENSAE

Plateau de Saclay
5 Avenue Henry-Le-Chatelier
91120 PALAISEAU - FRANCE

Paris
24 rue Barbès
92120 MONTROUGE - FRANCE