Le fil

« Avec le Département du Nord, nous sommes dans une vraie démarche expérimentale »

Team - 5 mai 2021

Data scientist curieux et peu enclin à la routine, Lyès Boucherai nourrit sa jeune expérience des projets qu’il mène pour les clients de Datastorm. Sa récente collaboration avec le Département du Nord sur l’optimisation du service public territorial l’a particulièrement marqué. Interview.

lyes boucherai datastormLyès, quel a été ton parcours avant de rejoindre Datastorm ?
Lyès Boucherai : j’ai suivi un cursus assez classique en mathématiques : d’abord une licence math et informatique à l’Université de Bejaïa, en Algérie, suivie d’un master 1 en Ingénierie mathématique à l’Université de Nantes et du master 2 de Mathématiques appliquées et Statistique, parcours Data Science, de l’Université de Rennes 2. C’est là-bas que j’ai entendu parler de Datastorm dont l’orientation « bureau d’études » m’a particulièrement intéressé. J’ai rejoint la team Datastorm fin 2017 et j’enchaîne depuis les projets sur des missions de 6 à 8 mois.

C’est cet environnement que tu recherchais pour ton premier job ?
L.B. : je suis quelqu’un de curieux et j’ai besoin de vivre des expériences professionnelles qui ne laissent pas de place à la routine. Chez Datastorm, nous travaillons essentiellement au forfait et très peu en régie. Nos missions s’articulent autour d’un besoin métier bien identifié auquel nous apportons une ou plusieurs solutions que nous co-construisons avec le client. C’est hyper formateur et cela permet de se forger un profil de data scientist très polyvalent. Depuis mes débuts chez Datastorm, j’ai travaillé pour le secteur bancaire, celui de l’énergie ou encore le service public territorial avec le Département du Nord, une très belle expérience !

Tu peux nous en dire plus sur cette collaboration avec le Département du Nord ?
L.B. : Nous avons mené deux missions. L’une sur l’optimisation de l’activité opérationnelle du Service départemental d’incendie et de secours (SDIS), l’autre sur une analyse quantitative et prospective sur le Revenu de solidarité active (RSA). S’il existait déjà une culture analytique propre à ces deux thématiques majeures au sein d’un département, elles n’avaient jamais fait l’objet d’analyses poussées faisant appel à des modèles statistiques robustes et encore moins à des techniques de data science. Nous étions donc dans une vraie démarche expérimentale, exactement le type de projet dans lequel je me retrouve.

 

J’ai passé plusieurs mois aux côtés de ces métiers au service de l’action publique (…) j’en retire une certaine fierté.

 

En deux mots, quels ont été les étapes et les livrables sur ces deux projets ?
L.B. : le SDIS 59 est le plus important Service départemental d’incendie et de secours de France avec plus de 6 300 pompiers professionnels et volontaires qui interviennent sur un territoire de 5 700 km² avec des secteurs à très forte urbanisation et des zones rurales éloignées des centres urbains. Ce sont des caractéristiques territoriales hors norme. Il s’agissait pour nous de proposer des solutions opérationnelles permettant d’optimiser la mission de service public du SDIS tout en maîtrisant les coûts de fonctionnement. Nous avons donc modélisé leur activité, développé des algorithmes de simulation d’engagement de moyens, et créé deux applications que le SDIS a pu exploiter longuement pour mettre à jour son Schéma départemental d’analyse et de couverture du risque. Les pompiers du Nord ont ainsi des indicateurs de performance fiables et peuvent optimiser leur couverture territoriale.

Et côté RSA ?
L.B. : il s’agissait dans un premier temps de faire émerger des indicateurs structurels et temporels afin d’aider le Conseil départemental du Nord à mieux connaître sa population de bénéficiaires. Via une application interactive qui traite les flux de données mensuels fournis par la Caisse d’allocations familiales, les services chargés du RSA peuvent désormais analyser les données en mode dynamique. Nous avons par ailleurs généré des modèles prédictifs qui objectivent les analyses et la prospective. Le Département bénéficie aujourd’hui d’un outil de pilotage de la dépense d’allocations, et il envisage l’étendre au sujet de l’Allocation personnalisée d’autonomie (APA) pour les personnes âgées. J’ai passé plusieurs mois aux côtés de ces métiers au service de l’action publique et je dois dire que c’est jusqu’ici ma plus belle expérience professionnelle, j’en retire une certaine fierté.

Tu parles d’outils au service de la décision et des métiers. Il y a quoi dans ta boite à outils de data scientist ?
L.B. : j’utilise principalement R comme langage de programmation. Ensuite, si on déroule un projet, en back-end data.table est un must have pour le management des données. Son système d’indexation est notamment très utile sur les grosses bases de données. Le package rgeos m’a pas mal servi sur ma mission avec les pompiers du Nord pour l’analyse de données spatio-temporelles, de même que parallel, idéal pour lancer des tâches de simulation sur des volumes de données demandant un temps de calcul important. En front-end, nous utilisons beaucoup Shiny pour la création de nos tableaux de bord et j’utilise bien sûr nos packages maison comme rAmCharts pour les graphiques interactifs ou shinypivottabler pour générer des tableaux croisés dynamiques. Enfin, l’utilisation de Git pour la gestion de projet et le versioning décentralisé avec le client est pour moi indispensable.

Tu travailles sur quel projet en ce moment ?
L.B. : je travaille pour le Crédit Immobilier de France sur la modélisation de la durée de vie des prêts à risque. La gestion de portefeuille, le risque de crédit, c’est un secteur pour lequel j’ai toujours eu de l’appétence.

Et tu réussis à dégager du temps pour la R&D ?
L.B. : oui, nous avons cette chance chez Datastorm de pouvoir consacrer 20% de notre temps à des travaux de R&D. C’est très stimulant. Typiquement, sur les sujets liés au risque de crédit, l’utilisation des modèles stochastiques et probabilistes a fait ses preuves. Mais d’un point de vue expérimental, le recours aux méthodes de machine learning me semble intéressant. Cela soulève des questions d’interprétabilité et d’explicabilité auxquelles le MLops peut apporter des réponses. C’est ce genre de travaux qui m’intéressent aujourd’hui et c’est à mon sens un défi passionnant pour les data scientists.

 

> Optimisation de l’activité opérationnelle du SDIS 59

R&D
Pourquoi mettre du GitOps dans ses projets data

Né chez les développeurs, Git est un outil de versioning open source qui contribue à la bonne documentation et donc à la réussite des projets data. Chez Datastorm, nous utilisons Git dans la plupart de nos projets, et pas seulement pour gérer du code. Explications.

« Avec le Département du Nord, nous sommes dans une vraie démarche expérimentale »

Data scientist curieux et peu enclin à la routine, Lyès Boucherai nourrit sa jeune expérience des projets qu’il mène pour les clients de Datastorm. Sa récente collaboration avec le Département du Nord sur l’optimisation du service public territorial l’a particulièrement marqué. Interview.

R&D
Explorer rapidement un set de données avec Shinymodules

Shinymodules est constitué de 4 modules permettant d’explorer rapidement un set de données. Filtrer, résumer, télécharger, analyser les performances d’un modèle de régression et monitorer : on trouve dans Shinymodules des fonctionnalités très utiles au quotidien. Bref, un must have !

Toute l'expertise du Groupe ENSAE-ENSAI

Plateau de Saclay
5 Avenue Henry-Le-Chatelier
91120 PALAISEAU - FRANCE

Paris
24 rue Barbès
92120 MONTROUGE - FRANCE