NewsRoom

Datastorm explore le potentiel des données fonctionnelles

R&D 8 janvier 2022

Doctorant au sein du Centre de recherche en économie et statistique (Crest), Hassan Maissoro démarre une thèse sur l’analyse des données fonctionnelles chez Datastorm. Il a pour projet de développer une approche statistique robuste qui pourrait ouvrir de nouvelles perspectives dans de nombreux champs d’application. Le point sur un sujet encore peu exploré.

Hassan, en quoi l’analyse de données fonctionnelles est-elle singulière d’un point de vue statistique ?
Hassan Maissoro : Dans le cadre habituel des séries temporelles, il est supposé que les observations viennent d’une seule trajectoire, ou d’un vecteur des trajectoires, le vecteur étant de dimension fixe. Avec les données fonctionnelles, on exploite le fait que l’on observe des mesures correspondant à plusieurs trajectoires. En fait, nous évoluons dans le cadre des données fonctionnelles lorsqu’on analyse en même temps une collection de séries temporelles ou de trajectoires d’un processus stochastique. L’unité d’observation est alors une courbe ou un vecteur de courbes.

(…) le paradigme de modélisation des données fonctionnelles est fondamentalement différent de celui
des séries temporelles.

C’est un changement de paradigme scientifique…
H.M. : Oui, le paradigme de modélisation des données fonctionnelles est fondamentalement différent de celui des séries temporelles. Et une conséquence importante de ce changement de cadre est qu’il n’est plus nécessaire d’assumer que ces séries de mesures sont la réalisation d’un processus stochastique stationnaire, ou d’un processus de racine unitaire, ou de n’importe quel autre processus générateur de données pour lequel il serait possible d’identifier la loi en observant une seule trajectoire suffisamment longtemps. Ma thèse vise à apporter une pierre à l’édifice en explorant des approches robustes en modélisation de données fonctionnelles.

Quels sont les exemples d’application ?
H.M. : On rencontre les données fonctionnelles dans presque tous les secteurs de l’économie mais le secteur de la météorologie, de l’énergie et des réseaux se prête particulièrement à l’analyse de ce type de données. C’est le cas de l’éolien. La production électrique éolienne de la France est en partie assurée par quelque 2 000 parcs éoliens répartis sur tout le territoire et la quantité d’électricité produite par chaque parc dans le temps est décrite par une courbe appelée courbe de charge. La collection des courbes de charges de l’ensemble de ces parcs éoliens est un exemple d’analyse de données fonctionnelles.
Autre exemple : dans le cadre de la surveillance des crues, plusieurs milliers de stations hydrométriques mesurent la hauteur et le débit des cours d’eau à des instants successifs. Chaque station produit ainsi une courbe qui décrit l’évolution du débit à un point spécifique d’un cours d’eau. L’ensemble de ces courbes forme des données fonctionnelles dont la modélisation peut aider à mieux appréhender ces phénomènes naturels.
Ce sont notamment ces sujets que je vais traiter dans ma thèse qui s’intitule précisément “Robust approaches to functional data modeling with application to hydrometric station monitoring and electric load curves forecasting”. Elle est co-encadrée par Myriam Vimond et Valentin Patilea, chercheurs en statistique au sein du Crest et enseignants à l’ENSAI.

Justement, quels sont les objectifs scientifiques de tes travaux ?
H.M. : Théoriquement, les données fonctionnelles sont des réalisations d’un processus stochastique en temps continu. Cependant, dans la pratique, on n’observe un processus qu’à des temps discrets, et avec des erreurs de mesure. Notre premier objectif est donc de reconstruire la trajectoire du processus grâce aux méthodes non-paramétriques en prenant en compte la présence de covariables ainsi qu’une dépendance temporelle. On veut pouvoir par exemple reconstruire les courbes de charge de la production électrique éolien en intégrant non seulement les variations saisonnières mais aussi l’effet de la vitesse du vent. Mais cette reconstruction doit également tenir compte de l’utilisation finale des courbes. Si l’objectif est de construire un modèle qui minimise une perte absolue, alors la reconstruction devra être optimale par rapport à cette perte.

(…) Un tel modèle permettra d’effectuer des prévisions
avec des erreurs plus faibles et à des horizons plus lointains que les modèles classiques de série temporelle
ou de machine learning.

Le deuxième objectif est de pouvoir détecter les courbes anormales en utilisant le concept de « profondeur », qui permet d’ordonner un nuage de points du centre vers l’extérieur, en présence de covariables. Si l’on garde l’exemple de la production électrique éolienne, lorsqu’une ou plusieurs éoliennes sont en inactivité sur un parc donné, la production du parc baisse. La prise en compte de ces périodes de sous-production dans l’entraînement d’un modèle prédictif dégradera la qualité des prédictions. D’où la nécessité de détecter les courbes de charge entachées par des périodes de sous-production ou de toute autre anomalie.
Enfin, le troisième et dernier objectif est de développer des modèles prédictifs robustes à la présence d’anomalies et d’utiliser des tests non-paramétriques pour sélectionner les meilleures covariables. Un tel modèle permettra d’effectuer des prévisions avec des erreurs plus faibles et à des horizons plus lointains que les modèles classiques de séries temporelles ou de machine learning. On pourra ainsi prédire la production éolienne aussi bien à 2 heures qu’à 30 jours, avec une meilleure précision, ce qui constitue un véritable atout opérationnel pour la filière.

Diplômé de l’ENSAE Dakar en 2019, Hassan Maissoro a rejoint la filière Génie Statistique de l’ENSAI dont il a été diplômé en 2021. Dans le cadre de sa scolarité à l’ENSAI, il a également suivi le Parcours Recherche (OFPR) en partenariat avec l’Université de Rennes 1. Il est aujourd’hui doctorant au sein du Centre de recherche en économie et statistique (Crest) et effectue sa thèse chez Datastorm.