Le fil

« Les métiers de la data et de l’IA ne viennent pas assez à la rencontre des femmes »

Team - 8 octobre 2020

Naomi Girard a rejoint la team Datastorm en 2018. Data scientist junior, elle explore toutes les facettes du métier avec un intérêt prononcé pour le Traitement du Langage Naturel et un avis éclairé sur les femmes dans la data. Rencontre.

Naomi, tu peux nous résumer ton parcours ?naomi girard, datastorm
Naomi Girard : après un double bac franco-allemand, j’ai intégré l’université de Paris 1 Panthéon-Sorbonne pour une licence de Mathématiques appliquées et Sciences sociales avec une 3e année en Erasmus à Cardiff University. J’ai ensuite suivi un Master de Statistiques appliquées à Rennes 2 avant de rejoindre l’ENSAI dont je suis sortie diplômée en 2018.

Université + Grande Ecole d’Ingénieur : c’était un choix prémédité ?
N.G. : c’est plutôt une suite logique de décisions prises lors de mon parcours d’étudiante. J’ai toujours aimé les mathématiques mais je ne me voyais pas faire « que » des maths. J’ai découvert les statistiques en licence MASS, le côté vraiment appliqué et les allers-retours avec l’informatique m’ont bien plu. Mon master universitaire à Rennes 2 m’a permis de développer une rigueur dans le travail et m’a appris l’autonomie. A l’ENSAI, j’ai consolidé mon bagage académique et j’ai surtout appris à travailler en mode projet, encadrée par des professionnels. Il y a un kick-off, des points réguliers, une restitution, c’est très professionnalisant et finalement assez proche de ce que je fais aujourd’hui en tant que data scientist chez Datastorm. Donc, choix prémédité, pas vraiment, mais heureuse combinaison, oui assurément.

Une étude récente* révèle que seulement 15 % des data scientists dans le monde sont des femmes. Ca t’inspire quoi ?
N.G. : que nous sommes rares et donc précieuses ! Non, sérieusement je pense que ces nouveaux métiers de la data et de l’IA ne viennent pas assez à la rencontre des femmes. Dès le collège, il faut oser leur parler de science, de maths, d’informatique et d’écoles d’ingénieur. A l’ENSAI, il y a 35 % de filles, c’est déjà pas mal mais on peut faire mieux. Et puis ce sont des métiers encore très associés à une culture « geek » plutôt masculine. Il y a encore des clients qui s’étonnent quand ils découvrent que je sais coder. Vous voyez le chemin qui nous reste.

le résumé automatique est encore neuf comme sujet et il reste beaucoup à explorer, notamment en langue française

Parlons justement de tes missions chez Datastorm…
N.G. : en deux ans, j’ai la chance d’avoir déjà travaillé sur plusieurs sujets appliqués à différents secteurs. J’ai effectué des missions dans le retail pour Yves Rocher et Célio, dans le transport pour la RATP, dans la finance pour le Crédit Immobilier de France, et aujourd’hui dans l’énergie pour Enedis. Je fais de la modélisation, du machine learning, du développement d’application, de la datavisualisation. Bref, zéro routine ! C’est stimulant et très formateur pour une junior data scientist.

Tu as déjà un « terrain de jeu » de prédilection ?
N.G. : je m’intéresse beaucoup au deep learning et notamment aux sujets autour du texte. Mon sujet de stage de fin d’études à l’ENSAI portait d’ailleurs sur le Traitement du Langage Naturel et plus particulièrement sur le résumé automatique. Si certaines applications sont aujourd’hui très performantes, comme la reconnaissance d’image, le résumé automatique est encore neuf comme sujet et il reste beaucoup à explorer, notamment en langue française. La majorité des recherches en la matière ont été faites en anglais et processer du texte en français avec des outils développés essentiellement par les Gafa n’est pas toujours une solution idéale. C’est dommage, mais on sent que ça bouge, les attentes sont fortes.

Ta boite à outils de data scientist ?
N.G. : je code en R et en Python, sans préférence particulière. J’utilise beaucoup les outils d’exploration de données comme dat.table sous R. J’utilise aussi la librairie standard scikit-learn : très efficace et rapide pour le machine learning sous Python. Côté NLP, spaCy est la librairie Python parfaite pour faire du pré-processing. On a de très bons résultats en quelques lignes de code, y compris en français !

* https://www.bcg.com/fr-fr/press/20feb2020-15-percent-women-data-scientists

Replay webinar : Comment concilier Performance business et Règlementation grâce à l’Anonymisation des données ?

Pourquoi anonymiser ? Choix de la méthode ? Comment mettre en oeuvre la k-anonymisation ? Comment outiller un département/une activité pour mener des études avec la confidentialité différentielle ? Dans ce webinar animé par Benoit Ravel, Thibaut Dubois et Martin Masson partagent leur expertise et vous expliquent comment trouver le point d’équilibre entre la maîtrise des risques d’identification et la conservation des capacités d’analyse et de valorisation des données.

« Les métiers de la data et de l’IA ne viennent pas assez à la rencontre des femmes »

Naomi Girard a rejoint la team Datastorm en 2018. Data scientist junior, elle explore toutes les facettes du métier avec un intérêt prononcé pour le Traitement du Langage Naturel et un avis éclairé sur les femmes dans la data. Rencontre.

Les exigences d’une Data Literacy réussie

Acculturer pour embarquer. Pour une entreprise, la Data Literacy est un levier puissant qui permet de partager une lecture et une compréhension commune des concepts, enjeux, processus et outils de la Data Science. Dans cet article, Benoit Ravel revient sur les incontournables de cette démarche.

Toute l'expertise du Groupe ENSAE-ENSAI

Plateau de Saclay
5 Avenue Henry-Le-Chatelier
91120 PALAISEAU - FRANCE

Paris
24 rue Barbès
92120 MONTROUGE - FRANCE