Le fil

Projets Data Science : « Un bon design de code facilite l’industrialisation »

Team - 15 avril 2020

Après un cursus brillant outre-Atlantique et en Europe, Thomas Zamojski aurait pu devenir chercheur en mathématiques. C’était sans compter sur son besoin de confronter la théorie au réel. Lead Data Scientist chez Datastorm, il accompagne aujourd’hui les entreprises dans l’industrialisation de leurs projets Data Science.

Thomas, ton cursus académique est impressionnant. Qu’est-ce qui a guidé tes choix tout au long de ton parcours ?
J’ai effectivement la chance d’avoir étudié à McGill et à l’Université de Chicago, deux des plus grandes et influentes universités au monde. Chicago a donné plusieurs Prix Nobel d’Economie et médailles Fields. Il y a donc, comment dire, un certain héritage dans le doctorat en mathématiques que j’ai obtenu outre-Atlantique. L’Ecole Polytechnique de Lausanne est également une référence. Toutefois, mes choix ont surtout été guidés par une grande curiosité scientifique et l’envie de rejoindre des équipes de recherche dont les travaux pouvaient répondre à cette curiosité. Ainsi pour mon postdoc en 2010, j’ai rejoint EPFL parce que l’Ecole héberge un des meilleurs laboratoires de mathématiques sur la théorie analytique des nombres, un domaine que je voulais explorer en profondeur.

La voie était tracée pour devenir chercheur…
C’est une carrière que j’ai bien sûr envisagée. Mais au fil du temps, mon intérêt pour les mathématiques appliquées a grandi, j’avais besoin de confronter la théorie au réel. Après mon postdoc, j’ai décidé de rester en Europe pour suivre une spécialisation en Statistiques et Data Science. Le Master Big Data de l’ENSAI s’est révélé idéal par sa solidité scientifique et sa dimension professionnelle. J’ai effectué mon stage de master chez Datastorm qui m’a immédiatement proposé un poste de Data Scientist. Voilà comment je ne suis pas devenu chercheur.

Quelle expertise revendiques-tu aujourd’hui chez Datastorm ?
Je conçois, teste et mets en production des modèles de machine learning pour nos clients, avec une forte expertise sur le design de code, particulièrement en Python.

Thomas Zamojski

Donc, Data Scientist… ou Data Architect ?
Je suis avant tout Data Scientist avec un incontestable background mathématique. Mais quand un POC* a fait ses preuves, le plus difficile est de réussir à le capitaliser. Dans 70 % des cas, l’échec est dû au défaut de synchronisation entre les métiers et notamment à un design de code qui freine l’appropriation technique du projet par les métiers. Un bon design de code facilite grandement l’industrialisation d’un projet Data Science. Aujourd’hui, mon expertise intègre donc systématiquement cette dimension qui touche effectivement à l’architecture des données.

Sur quels projets travailles-tu en ce moment ?
Je pilote plusieurs projets liés à la maintenance prédictive en temps réel dans l’industrie. Un client gestionnaire d’un réseau de transport de gaz s’apprête à mettre en production un modèle sur la probabilité de défaut des canalisations que nous avons construit avec leurs experts métiers. La prochaine étape est d’intégrer de nouvelles données géo-spatiales afin que le modèle gagne encore en robustesse. J’accompagne également un autre acteur de l’énergie dans l’industrialisation de ses outils data, en particulier les technologies de conteneurisation. J’interviens donc aussi bien sur la phase Exploratoire des projets, que sur la phase Pilote ou Industrialisation. En fait, je me retrouve parfaitement dans le « Think, Model, Build » que revendique Datastorm. C’est le processus que devraient suivre tous les projets data.

Quand on conçoit et industrialise des modèles de machine learning, la question de l’interprétabilité et de l’explicabilité se pose en permanence.
Construire un modèle très performant est évidemment stimulant pour un Data Scientist. Comprendre et expliquer pourquoi une intelligence artificielle donne un résultat plutôt qu’un autre est tout aussi important car un modèle interprétable et explicable permet déjà un meilleur monitoring. La transparence facilite également le dialogue entre les métiers que j’évoquais tout à l’heure. Les approches de type SHAP (SHapley Additive exPlanations) permettent ainsi d’expliquer un modèle de machine learning, quel que soit le modèle. Donc oui, robustesse, monitoring et interprétabilité évitent les IA façon « boîte noire » et instaurent un climat de confiance indispensable à la bonne marche d’un projet Data Science.

Côté client et métiers, comment faire pour ne pas limiter les idées de cas d’usage à quelques initiés ?
La prise de décision éclairée par l’analyse statistique et la Data Science est devenue un enjeu pour de nombreux métiers d’ingénierie, en comprendre les mécanismes de base est donc essentiel. Nous venons de boucler le programme « Data Science for Everyone » pour une grande entreprise industrielle. En nous appuyant sur l’expertise académique et scientifique de notre écosystème sur le Plateau de Saclay, nous avons créé une série de modules vidéo et infographiques qui permettent de se familiariser avec les concepts-clés des Statistiques, de la Data Science et de l’IA. En mode micro learning, 700 personnes suivent aujourd’hui ce Programme chez notre client. Cette démarche d’acculturation est nécessaire pour doter chacun d’une Data Literacy commune et fiable, loin des fantasmes et de la science-fiction.

Justement, de ton point de vue, qu’est-ce qui relève du possible ou de la science-fiction quand on parle d’IA ?
L’IoT au service de la médecine ou de l’énergie est un secteur très prometteur. En donnant aux objets connectés des capacités d’apprentissage autonome, l’IA peut nous faire entrer dans un nouveau paradigme assez rapidement. A l’inverse, la réalité du véhicule autonome est selon moi beaucoup plus lointaine car elle suppose des décisions en temps réel qui impliquent trop de facteurs. L’industrialisation n’est clairement pas pour demain.

 

Thomas Zamojski en 5 dates :

  • 2004 : Bachelor of Science in Mathematics & Computer Science, McGill University, Montréal
  • 2010 : PhD in Mathematics, The University of Chicago
  • 2010-2012 : Postdoctoral Fellow, Ecole Polytechnique Fédérale de Lausanne
  • 2016 : Master of Science in Big Data, ENSAI
  • 2016 : Datastorm

 

*POC : Proof of Concept

Replay webinar : Comment concilier Performance business et Règlementation grâce à l’Anonymisation des données ?

Pourquoi anonymiser ? Choix de la méthode ? Comment mettre en oeuvre la k-anonymisation ? Comment outiller un département/une activité pour mener des études avec la confidentialité différentielle ? Dans ce webinar animé par Benoit Ravel, Thibaut Dubois et Martin Masson partagent leur expertise et vous expliquent comment trouver le point d’équilibre entre la maîtrise des risques d’identification et la conservation des capacités d’analyse et de valorisation des données.

« Les métiers de la data et de l’IA ne viennent pas assez à la rencontre des femmes »

Naomi Girard a rejoint la team Datastorm en 2018. Data scientist junior, elle explore toutes les facettes du métier avec un intérêt prononcé pour le Traitement du Langage Naturel et un avis éclairé sur les femmes dans la data. Rencontre.

Les exigences d’une Data Literacy réussie

Acculturer pour embarquer. Pour une entreprise, la Data Literacy est un levier puissant qui permet de partager une lecture et une compréhension commune des concepts, enjeux, processus et outils de la Data Science. Dans cet article, Benoit Ravel revient sur les incontournables de cette démarche.

Toute l'expertise du Groupe ENSAE-ENSAI

Plateau de Saclay
5 Avenue Henry-Le-Chatelier
91120 PALAISEAU - FRANCE

Paris
24 rue Barbès
92120 MONTROUGE - FRANCE