BigData

Modèles de calcul du Big Data

Description : Part 1 : Emergence des technologies Big Data. Pile logicielle d’Hadoop, architecture et fonctionnement d’HDFS ; Architecture et mécanisme de déploiement de calculs distribués de Spark ; Modèle de programmation de Spark en RDD, algorithmique du Map-Reduce étendu de Spark ; Optimisation des algorithmes et des codes sur architectures distribuées. Part 2 : Architecture d’un Data Lake, Data Warehouse et Data lakehouse. Métriques des temps d’exécution, d’accélération et d’efficacité ; Métriques de Size up en 3 critères/objectifs successifs ; Critères de performance pour le passage à l’échelle (Big Data et HPC) ; Part 3 : Représentation et analyse de données en Spark Data-Frames et Spark SQL. Part 4 : Calcul et analyse de données large échelle sur Cloud ; Problématique d’utilisation de Cloud en environnement industriel ;Exemple d’environnement de programmation sur Cloud avec un système de fichier distribué propre au CLOUD (ex : S3 sur AWS) ; mise en oeuvre d’analyse de données large échelle sur Cloud.

Acquis d’apprentissage : A l’issue de ce cours les étudiants sauront concevoir des algorithmes de traitement et d’analyse de données à large échelle sur des architectures distribuées de type cluster Hadoop ou cluster Spark. Ils sauront concevoir des algorithmes efficaces prenant en compte les coût des communications entre les noeuds de calcul, et analyser les performances de leurs implantations distribuées. Ils sauront utiliser des API de haut niveau comme des surcouches SQL mais aussi des API de bas niveau (‘map-reduce’), et connaitront au moins une API de Cloud. Enfin ils connaitront les architectures types des datalake, datawarehouse et datalakehouse.

Modalités d’évaluation : Rapports de TP

Compétences évaluées :

Développement
Système

Responsable de cours : Stéphane Vialle

Identifiant Geode : 3MD4130