Formation BIG DATA La synthèse
Objectifs
Appréhender les concepts fondamentaux et les origines du Big Data.
Découvrir les approches structurées, semi-structurées et non structurées, ainsi que les solutions Cloud.
Apprendre à utiliser HDFS, MapReduce, Yarn et Spark.
Comprendre leur rôle et leur utilisation dans la BI.
Travailler avec MongoDB, Cassandra et Hive.
Utiliser Pandas, Numpy, SciPy et Matplotlib pour le traitement et la visualisation des données.
Implémenter des modèles de machine learning et d’intelligence artificielle avec Python et SKLearn.
Utiliser MongoDB et Hadoop HDFS pour gérer les données IoT.
Pré-requis
Participants
Programme de formation
INTRODUCTION AUX DATA SCIENCES
Qu'est-ce que la Data Science?
Qu'est-ce qu’une base de données SQL?
L'IoT
Les origines du Big Data
Les chiffres clés, le ROI
Les langages Java et Python
Qu'est-ce que l’informatique distribué ?
LES TECHNOLOGIES DE BIG DATA
Les approches non structurées
- Apache Hadoop HDFS
Les approches semi structurées
- MongoDb, Cassandra
La répartition des bases et le modèle de distribution
Les approches structurées : SQL
La perte de l'ACIDité des bases
Le modèle 3V : Volume, Vélocité, Variété
Les différences entre les approches
Les approches Cloud
- Google, Amazon Web Service, Microsoft Azure
APACHE HADOOP
Le système HDFS
L'approche semi-structurée avec Hive
Apache Hadoop
Le traitement des données réparties
- Map – Reduce
Le scheduler Yarn
Spark : le futur
Les distributions
- Hortonworks, Cloudera, MapR
L'approche 3V
Création d'un datanode
Création d'un namenode distribué
Python HDFS
INTRODUCTION AUX DATALAKE ET DATALAB
Qu'est-ce qu’un DataLake ?
Qu'est-ce qu’un DataLab ?
Les DataLake pour la BI
- Les DataMart et DataWharehouse
Utiliser Hadoop comme DataLake
LES BASES SEMI-STRUCTURÉES
Le stockage NoSql
Accès à MongoDB avec Python
L'approche tabulaire avec Cassandra
Les bases de Cassandra
Accès à Cassandra avec CQL
L'approche SQL avec Hive et HDFS
Accès à Cassandra en Python
L'approche semi-structurée avec JSON
MongoDB
L'IoT avec MongoDB
Utiliser MongoDB avec Hadoop HDFS
TRAITEMENT ET AFFICHAGE DES DONNÉES
Traitement des données avec Pandas
Calculs sur les données avec Numpy et SciPy
Le Machine Learning
Les traitements avec Python, R et Scala
La segmentation, la randomisation, le regroupement avec les modèles
Implémenter de l'intelligence artificielle avec SKLearn
Le Deep Learning avec les réseaux neuronaux
Utilisation de la bibliothèque graphes MathPlotLib
Affichage des données avec QlikView