Formations informatiques à Grenoble et Sophia Antipolis

Formation BIG DATA La synthèse

Objectifs

Appréhender les concepts fondamentaux et les origines du Big Data.

Découvrir les approches structurées, semi-structurées et non structurées, ainsi que les solutions Cloud.

Apprendre à utiliser HDFS, MapReduce, Yarn et Spark.

Comprendre leur rôle et leur utilisation dans la BI.

Travailler avec MongoDB, Cassandra et Hive.

Utiliser Pandas, Numpy, SciPy et Matplotlib pour le traitement et la visualisation des données.

Implémenter des modèles de machine learning et d’intelligence artificielle avec Python et SKLearn.

Utiliser MongoDB et Hadoop HDFS pour gérer les données IoT.

Pré-requis

Avoir une appétence pour les technologies informatiques.

Participants

Développeur, chef de projets proche du développement, ingénieur scientifique sachant lire du code.

Programme de formation

BIG DATA La synthèse

INTRODUCTION AUX DATA SCIENCES

  1. Qu'est-ce que la Data Science?

  2. Qu'est-ce qu’une base de données SQL?

  3. L'IoT

  4. Les origines du Big Data

  5. Les chiffres clés, le ROI

  6. Les langages Java et Python

  7. Qu'est-ce que l’informatique distribué ?

LES TECHNOLOGIES DE BIG DATA

  1. Les approches non structurées

    • Apache Hadoop HDFS
  2. Les approches semi structurées

    • MongoDb, Cassandra
  3. La répartition des bases et le modèle de distribution

  4. Les approches structurées : SQL

  5. La perte de l'ACIDité des bases

  6. Le modèle 3V : Volume, Vélocité, Variété

  7. Les différences entre les approches

  8. Les approches Cloud

    • Google, Amazon Web Service, Microsoft Azure

APACHE HADOOP

  1. Le système HDFS

  2. L'approche semi-structurée avec Hive

  3. Apache Hadoop

  4. Le traitement des données réparties

    • Map – Reduce
  5. Le scheduler Yarn

  6. Spark : le futur

  7. Les distributions

    • Hortonworks, Cloudera, MapR
  8. L'approche 3V

  9. Création d'un datanode

  10. Création d'un namenode distribué

  11. Python HDFS

INTRODUCTION AUX DATALAKE ET DATALAB

  1. Qu'est-ce qu’un DataLake ?

  2. Qu'est-ce qu’un DataLab ?

  3. Les DataLake pour la BI

    • Les DataMart et DataWharehouse
  4. Utiliser Hadoop comme DataLake

LES BASES SEMI-STRUCTURÉES

  1. Le stockage NoSql

  2. Accès à MongoDB avec Python

  3. L'approche tabulaire avec Cassandra

  4. Les bases de Cassandra

  5. Accès à Cassandra avec CQL

  6. L'approche SQL avec Hive et HDFS

  7. Accès à Cassandra en Python

  8. L'approche semi-structurée avec JSON

  9. MongoDB

  10. L'IoT avec MongoDB

  11. Utiliser MongoDB avec Hadoop HDFS

TRAITEMENT ET AFFICHAGE DES DONNÉES

  1. Traitement des données avec Pandas

  2. Calculs sur les données avec Numpy et SciPy

  3. Le Machine Learning

  4. Les traitements avec Python, R et Scala

  5. La segmentation, la randomisation, le regroupement avec les modèles

  6. Implémenter de l'intelligence artificielle avec SKLearn

  7. Le Deep Learning avec les réseaux neuronaux

  8. Utilisation de la bibliothèque graphes MathPlotLib

  9. Affichage des données avec QlikView

Durée
2 jours
Lieux
Meylan Moirans Sophia Dans vos locaux Classe distancielle
Groupe de 8 personnes maximum
Demandez un devis
Cette thématique vous intéresse ?
Nos experts conçoivent votre formation sur-mesure On adore les moutons à 5 pattes !