Le fil

Functional Data : un potentiel encore peu exploré

R&D - 21 décembre 2020

La dernière matinée R&D de Datastorm était notamment consacrée aux données fonctionnelles. Elles peuvent apporter de nouvelles pistes de modélisation pour la prévision ou l’analyse. Le point avec Benoit Ravel, CEO de Datastorm.

Benoit Ravel, de quoi parle-t-on quand on évoque les données fonctionnelles ?
Fondamentalement, l’idée s’applique lorsqu’on dispose d’un ensemble de séries temporelles, comme par exemple les mesures temporelles de capteurs, générées par un même mécanisme aléatoire. On peut alors se servir de l’information contenue sur chaque série, ainsi que celle disponible à travers les séries. Formellement, on considère que chaque série temporelle est le fruit de  la réalisation d’une seule variable aléatoire qui est une fonction, une trajectoire, une courbe. En adoptant cette perspective de modélisation il est possible de fortement réduire la dimension du problème en procédant à une décomposition parcimonieuse de ces fonctions, trajectoires, courbes, sur des bases bien choisies et surtout de pouvoir naturellement réconcilier des signaux dont l’échantillonnage temporel peut être différent et irrégulier.

Pourquoi Datastorm s’intéresse aujourd’hui de près à ce sujet ?
C’est un sujet encore peu exploré et peu utilisé dans un contexte industriel avec des données réelles. Or, avec le développement de l’IoT, il y a de vraies potentialités. Les quantités mesurées par les capteurs prennent en effet la forme de courbes aléatoires et les méthodes statistiques multivariées usuelles ne sont plus performantes pour exploiter ce type de données. Les méthodes et algorithmes issus de la statistique pour données fonctionnelles peuvent apporter de nouvelles pistes de modélisation pour la prévision ou l’analyse.

Vous avez des exemples d’application ?
Oui, notamment dans le secteur de l’énergie que nous connaissons bien chez Datastorm. Avec Enedis, nous travaillons depuis plusieurs années sur l’optimisation de la prévision de la production des énergies renouvelables qui utilise une quantité considérable de données. Nous allons tester des modèles et algorithmes de données fonctionnelles et voir comment ils apportent de nouveaux éléments de prévision par rapport à ce que nous avons déjà pu mettre en œuvre avec le boosting ou les réseaux de neurones. Je compte également proposer à Engie Digital de travailler sur le monitoring de la production éolienne avec cette approche dans une logique de co-innovation : comment optimiser le fonctionnement du parc, la puissance rendue, les plans de maintenance grâce aux données fonctionnelles ? Nous aimerions d’ailleurs recruter un doctorant en statistique pour travailler spécifiquement sur ces sujets.

« Nous avons besoin d’aller sur des sujets innovants et de les partager tous ensemble. »

Et vous appuyer sur la recherche fondamentale ?
Tout à fait. Datastorm bénéficie d’un environnement à haute valeur ajoutée scientifique avec le Crest, le laboratoire commun à l’ENSAE, l’ENSAI et au département d’Economie de l’Ecole polytechnique. Au-delà, nous profitons de la dynamique R&D de l’Institut polytechnique de Paris et particulièrement de celle de Hi!PARIS, le tout nouveau centre interdisciplinaire de recherche et d’enseignement consacré à l’IA et à la Data Science. Grâce à cet environnement, notre expertise s’enrichit des derniers travaux des chercheurs en statistique, économie, data science et IA. C’est dans ce cadre que Valentin Patilea, responsable de la recherche à l’ENSAI, et son doctorant Steven Golovkine, sont venus nous présenter leurs travaux sur les données fonctionnelles lors de notre dernière matinée R&D.

Pas de Datastorm sans R&D donc.
Non, définitivement. Nos équipes consacrent 20 % de leur temps à la R&D. C’est dans nos gènes. Nous mettons ce temps à profit pour participer à des conférences, explorer la littérature, travailler directement avec les spécialistes. Nous avons besoin d’aller sur des sujets innovants et de les partager tous ensemble, c’est très stimulant et cela nous permet d’envisager en temps réel des terrains d’application en rapprochant la recherche des besoins de nos clients.

R&D
Voici shinydrive, le dernier-né des packages Datastorm

Dans la famille des packages shiny de Datastorm, voici le petit dernier : shinydrive. Le package shinydrive a été développé pour répondre à un besoin simple : faciliter le partage de fichiers entre différents utilisateurs d’une application R/shiny.

R&D
Functional Data : un potentiel encore peu exploré

La dernière matinée R&D de Datastorm était notamment consacrée aux données fonctionnelles. Elles peuvent apporter de nouvelles pistes de modélisation pour la prévision ou l’analyse. Le point avec Benoit Ravel, CEO de Datastorm.

Replay webinar : Anticiper les dérives de vos Modèles de Machine Learning grâce au MLOps

La multiplication des projets data et des algorithmes expose les entreprises à un risque aujourd’hui clairement identifié : la baisse de performance des modèles de Machine Learning. Il est pourtant capital d’anticiper les dérives de vos modèles et le Machine Learning Operations (MLOps) peut vous y aider. Dans ce nouveau webinaire, les équipes de Datastorm vous expliquent comment.

Toute l'expertise du Groupe ENSAE-ENSAI

Plateau de Saclay
5 Avenue Henry-Le-Chatelier
91120 PALAISEAU - FRANCE

Paris
24 rue Barbès
92120 MONTROUGE - FRANCE