Optimiser l’analyse des Big Data

Yanlei Diao, professeur au Laboratoire d'informatique de l'École polytechnique, développe de nouveaux algorithmes et méthodes pour analyser et extraire des informations utiles des données. Ses travaux, financés par le Conseil européen de la recherche, sont menés en collaboration avec de grandes institutions de recherche et des partenaires industriels du monde entier

15 Mar. 2023

Recherche, IA et Science des données, LIX, Informatique

Aujourd'hui, nous vivons à l'ère du big data. Les données sont le fondement de l'intelligence artificielle et peuvent générer des outils innovants. Pourtant, le volume des données explose, le temps nécessaire à leur analyse augmente, tout comme le coût de l'extraction des informations importantes. Une question décisive se pose donc pour de nombreuses entreprises : Face à des données toujours plus nombreuses, peut-on accélérer ce processus tout en minimisant les coûts ?

Au Laboratoire d'Informatique de l'École Polytechnique (LIX*), Yanlei Diao aborde cette question dans ses recherches. En tant que professeur d'informatique, elle dirige un projet intitulé "Charting a New Horizon of Big and Fast Data Analysis through Integrated Algorithm Design" avec un financement de 2,5 millions d'euros sur 5 ans du Conseil européen de la recherche (ERC). "De nombreuses entreprises répondent à cette question décisive en embauchant des équipes d'ingénieurs, mais elles souffrent toujours de performances sous-optimales en raison de la complexité des big data. Dans notre projet de recherche, que nous menons avec des collaborateurs aux États-Unis, ainsi que des partenaires industriels en Europe et en Asie, nous nous concentrons sur deux questions pour aider à manipuler ces données", souligne-t-elle.

La première question consiste à savoir comment atteindre à la fois une vitesse élevée et un faible coût pour l'extraction des informations. Un système de big data stocke les données sur de nombreuses machines et gère de nombreuses tâches d’analyse. Pour atteindre une vitesse élevée et un faible coût dans ce processus, il faut contrôler de nombreux paramètres du système et disposer d'un savoir-faire technique. L'équipe a donc mis au point une approche d'optimisation automatisée où les objectifs de vitesse et de coût sont modélisés sur de nombreux paramètres grâce à un apprentissage automatique à grande échelle. Ensuite, ces paramètres sont déterminés dans un processus d'optimisation multi-objectifs, maximisant la vitesse tout en minimisant le coût. "Mon partenariat passé avec Alibaba Cloud a également permis à ses activités de finance, d'alimentation et de voyage d'améliorer la vitesse et de réduire le coût du traitement dans le cloud, tous deux jusqu'à 70 %, en plus d'économiser le coût de son équipe d'ingénieurs. Et nos techniques sont en train d'être déployées par Amazon Web Services, le premier fournisseur mondial de services de cloud computing", explique Yanlei Diao, qui occupe par ailleurs un poste à temps partiel de chercheuse à Amazon.

La deuxième question de recherche consiste à accélérer davantage l'extraction d'informations lorsque les données proviennent de sources en direct. Les utilisateurs ont besoin de comprendre ces données en temps réel, ce que l'on appelle l'analyse de flux (stream analytics). Cependant, les systèmes traditionnels sont trop lents parce qu'ils écrivent d'abord les données sur disque et exécutent ensuite les analyses. C'est pourquoi les équipes développent de nouveaux algorithmes pour l'analyse en continu. Parmi ceux-ci, l'algorithme de "détection d'anomalies explicables" détecte automatiquement une variété d'anomalies grâce aux dernières techniques d'apprentissage profond, et surmonte la difficulté d'interprétation de cet apprentissage profond en renvoyant des informations lisibles par les humains et exploitables pour prévenir ou remédier à la situation. À ce titre, Yanlei Diao et ses collaborateurs comptent parmi les premiers partenaires de SWIFT, un fournisseur de services de messagerie financière. Ils lui ont fourni son premier algorithme de détection d'anomalies non supervisé et explicable pour les transactions frauduleuses en quasi temps réel.

À propos de Yanlei Diao

Yanlei Diao est professeur d'informatique à l'École polytechnique et auparavant à l'Université du Massachusetts Amherst, aux États-Unis. Elle occupe également un poste à temps partiel chez Amazon en tant qu'Amazon Scholar. Elle a obtenu son doctorat en informatique à l'Université de Californie, Berkeley, en 2005. Elle a reçu une bourse Consolidator en 2016 de l'ERC, le prix Borg Early Career Award 2013 de l'ARC-W (une informaticienne sélectionnée chaque année pour ses contributions exceptionnelles), le prix IBM Scalable Innovation Faculty Award et le prix NSF Career Award. Les recherches de Yanlei Diao portent sur l'analyse des big data et les systèmes d'information intelligents et évolutifs, et plus particulièrement sur l'optimisation de l'analyse dans le cloud, l'analyse des flux de données, la détection des anomalies explicables, l'exploration interactive des données, l'analyse des données génomiques et la gestion des données incertaines.

En savoir plus : la page personnelle de Yanlei Diao

*LIX : une unité mixte de recherche CNRS, École polytechnique, Institut Polytechnique de Paris, 91120 Palaiseau, France

Retour