Fiche détaillée d'un cours


   


Voir la fiche établissement

Big Data

2023-2024

FrECOLE DU NUMERIQUE ( EDN )

Code Cours :

2324-EDN-COMP-FR-5007


Niveau Année de formation Période Langue d'enseignement 
S3FrFrançais
Professeur(s) responsable(s)Quentin VILLOTTA
Intervenant(s)Pas d'autre intervenant

    Ce cours apparaît dans les formations suivantes :
  • Ecole Du Numérique (EDN) - Master 2 Data & Intelligence Artificielle - S3 - 2 ECTS

Pré requis

Connaissance de base en Algèbre Linéaire


Connaissance de base en programmation : Terminal/Bash, SQL, Python

Objectifs du cours

Cette formation a pour but de vous familiariser à l’univers du Big Data à travers la compréhension des enjeux qu’il permet de résoudre, les concepts méthodologiques et technologiques qui lui sont propres.


Lors de cette formation, vous apprendrez à déployer une infrastructure Big Data, à réaliser un ETL sur une volumétrie importante de données de façon distribuées et à utiliser des framework de calcul distribué sur ces données

Contenu du cours

1 - Les enjeux et les concepts du Big Data


- La réalité économique et l’histoire du Big Data



  • Les enjeux du Big Data

  • Les 3 V du Big Data

  • Les chiffres clés


- Les concepts fondamentaux du Big Data



  • Diviser (et distribuer) pour régner

  • Le paradigme Map Reduce


TD/TP : Multiplication d’une matrice par un vecteur et jointure de tables (BDD) en MapReduce


2 – Les technologies du Big Data


- Le Framework Hadoop : Architecture et composants



  • Hadoop MapReduce

  • HDFS

  • YARN


- Les principales distributions Hadoop du marché (Cloudera, MapR, Hortonworks, AWS)


- EMR: Le cluster Big Data d’Amazon


- L’ecosystème Hadoop (HUE, Oozie, …)


TD/TP : Installation d'une plateforme Big Data Hadoop et réalisation d’un WordCount en Map Reduce


3 - Manipuler et analyser des données structurées et semi-structurées avec Hive


- Créer des bases de données structurées dans Hive


- Manipuler des données en SQL avec Hive


- Guide des bonnes pratiques en Hive


TD/TP : Réalisation d’un ETL en Hive à partir de données stockées dans HDFS


4 - Le NoSQL & Architecture Big Data


- Les familles NoSQL


- Le théorème de CAP


- La Stack ELK


- Les architectures Big Data (Lambda, Data Lake, Kappa)


- Présentation d’un cas pratique d’architecture Lambda (Top 10 tendance Twitter)


- Temp réel : Introduction à Kafka


5 - Spark


- Courte Introduction à la Data Science


- Qu’est-ce que Spark ?


- Les modules de Spark


- Les grands concepts (RDD, DataFrame, DAG, …)


- Spark UI


TD/TP: Réalisation d’un ETL et d’un modèle de Machine Learning en Spark (API python


Modalités d'enseignement

Organisation du cours

cours de 20h

Méthodes pédagogiques


    Évaluation

    Contrôle continu : coeff. 1





     
    * Informations non contractuelles et pouvant être soumises à modification
     
     
    Vidéo : Un campus à vivre
    Notre chaîne Youtube