FORMATIONS |
Fiche détaillée d'un cours
Niveau | Année de formation | Période | Langue d'enseignement |
---|---|---|---|
S3 | FrFrançais |
Professeur(s) responsable(s) | Quentin VILLOTTA |
---|---|
Intervenant(s) | Pas d'autre intervenant |
- Ce cours apparaît dans les formations suivantes :
- Ecole Du Numérique (EDN) - Master 2 Data & Intelligence Artificielle - S3 - 2 ECTS
Pré requis
Connaissance de base en Algèbre Linéaire
Connaissance de base en programmation : Terminal/Bash, SQL, Python
Objectifs du cours
Cette formation a pour but de vous familiariser à l’univers du Big Data à travers la compréhension des enjeux qu’il permet de résoudre, les concepts méthodologiques et technologiques qui lui sont propres.
Lors de cette formation, vous apprendrez à déployer une infrastructure Big Data, à réaliser un ETL sur une volumétrie importante de données de façon distribuées et à utiliser des framework de calcul distribué sur ces données
Contenu du cours
1 - Les enjeux et les concepts du Big Data
- La réalité économique et l’histoire du Big Data
- Les enjeux du Big Data
- Les 3 V du Big Data
- Les chiffres clés
- Les concepts fondamentaux du Big Data
- Diviser (et distribuer) pour régner
- Le paradigme Map Reduce
TD/TP : Multiplication d’une matrice par un vecteur et jointure de tables (BDD) en MapReduce
2 – Les technologies du Big Data
- Le Framework Hadoop : Architecture et composants
- Hadoop MapReduce
- HDFS
- YARN
- Les principales distributions Hadoop du marché (Cloudera, MapR, Hortonworks, AWS)
- EMR: Le cluster Big Data d’Amazon
- L’ecosystème Hadoop (HUE, Oozie, …)
TD/TP : Installation d'une plateforme Big Data Hadoop et réalisation d’un WordCount en Map Reduce
3 - Manipuler et analyser des données structurées et semi-structurées avec Hive
- Créer des bases de données structurées dans Hive
- Manipuler des données en SQL avec Hive
- Guide des bonnes pratiques en Hive
TD/TP : Réalisation d’un ETL en Hive à partir de données stockées dans HDFS
4 - Le NoSQL & Architecture Big Data
- Les familles NoSQL
- Le théorème de CAP
- La Stack ELK
- Les architectures Big Data (Lambda, Data Lake, Kappa)
- Présentation d’un cas pratique d’architecture Lambda (Top 10 tendance Twitter)
- Temp réel : Introduction à Kafka
5 - Spark
- Courte Introduction à la Data Science
- Qu’est-ce que Spark ?
- Les modules de Spark
- Les grands concepts (RDD, DataFrame, DAG, …)
- Spark UI
TD/TP: Réalisation d’un ETL et d’un modèle de Machine Learning en Spark (API python
Modalités d'enseignement
Organisation du cours
cours de 20h
Méthodes pédagogiques
Évaluation
Contrôle continu : coeff. 1
* Informations non contractuelles et pouvant être soumises à modification