Formations informatiques à Grenoble et Sophia Antipolis

Formation PYTHON Data Scientist avec Python

Objectifs

Appréhender les concepts fondamentaux de la data science, du machine learning et des statistiques.

Utiliser Python et ses bibliothèques pour manipuler des données, créer des modèles et visualiser des résultats.

Créer et gérer des DataLake, DataMart et DataWarehouse.

Utiliser Matplotlib pour afficher des données sous forme de graphiques 2D.

Mettre en oeuvre des modèles de régression, de classification et de clustering.

Utiliser MongoDB, Cassandra et autres bases de données NoSQL pour stocker et manipuler des données.

Utiliser Numpy, SciPy et ScikitLearn pour améliorer la précision et l’efficacité des modèles.

Comprendre et utiliser Hadoop et ses composants pour traiter de grandes quantités de données.

Pré-requis

Maîtriser l'algorithmique, avoir une appétence pour les mathématiques. La connaissance de Python et des statistiques est un plus.

Participants

Développeur, chef de projets proche du développement, ingénieur scientifique sachant coder.

Programme de formation

PYTHON Data Scientist avec Python

INTRODUCTION AUX DATA SCIENCES

  1. Qu'est que la data science ?

  2. Qu'est-ce que Python ?

  3. Qu'est que le Machine Learning ?

  4. Apprentissage supervisé vs non supervisé

  5. Les statistiques

  6. La randomisation

  7. La loi normale

INTRODUCTION À PYTHON POUR LES DATA SCIENCE

  1. Les bases de Python

  2. Les listes en intention

  3. Les listes

  4. Les tuples

  5. Les dictionnaires

  6. Les modules et packages

  7. L'orienté objet

  8. Le module math

  9. Les expressions lambda

  10. Map, reduce et filter

  11. Le module CSV

  12. Les modules DB-API 2

  13. Anaconda

INTRODUCTION AUX DATALAKE, DATAMART ET DATAWHAREHOUSE

  1. Qu'est-ce qu’un DataLake ?

  2. Les différents types de DataLake

  3. Le Big Data

  4. Qu'est-ce qu’un DataWharehouse ?

  5. Qu'est qu’un DataMart ?

  6. Mise en place d'un DataMart

  7. Les fichiers

  8. Les bases de données SQL

  9. Les bases de données No-SQL

PYTHON PACKAGE INSTALLER

  1. Utilisation de PIP

  2. Installation de package PIP

  3. PyPi

MATPLOTLIB

  1. Utilisation de la bibliothèque scientifique de graphes MatPlotLib

  2. Affichage de données dans un graphique 2D

  3. Affichages de sous-graphes

  4. Affichage de polynômes et de sinusoïdales

MACHINE LEARNING

  1. Mise en place d'une machine learning supervisé

  2. Filtrage

  3. Qu'est qu’un modèle et un dataset

  4. Qu'est qu’une régression

  5. Les différents types de régression

  6. La régression linéaire

  7. Gestion du risque et des erreurs

  8. Quarter d'Ascombe

  9. Trouver le bon modèle

  10. La classification

  11. Loi normale, variance et écart type

  12. Apprentissage

  13. Mesure de la performance

  14. No Fee Lunch

LA RÉGRESSION LINÉAIRE EN PYTHON

  1. Programmer une régression linéaire en Python

  2. Utilisation des expressions lambda et des listes en intention

  3. Afficher la régression avec MatPlotLib

  4. L'erreur quadratique

  5. La variance

  6. Le risque

LE BIG DATA

  1. Qu'est-ce que Apache Hadoop ?

  2. Yarn

  3. Qu'est-ce que l’informatique distribué ?

  4. Installation et configuration de Hadoop

  5. HDFS

  6. Création d'un datanode

  7. Création d'un namenode distribué

  8. Manipulation de HDFS

  9. Hadoop comme DataLake

  10. Map Reduce

  11. Hive

  12. Hadoop comme DataMart

  13. Python HDFS

LES BASES DE DONNÉES NOSQL

  1. Les bases de données structurées

  2. SQL avec SQLite et Postgresql

  3. Les bases de données non ACID

  4. JSON

  5. MongoDB

  6. Cassandra, Redis, CouchDb

  7. MongoDB sur HDFS

  8. MongoDB comme DataMart

  9. PyMongo

NUMPY ET SCIPY

  1. Les tableaux et les matrices

  2. L'algèbre linéaire avec Numpy

  3. La régression linéaire SciPy

  4. Le produit et la transposée

  5. L'inversion de matrice

  6. Les nombres complexes

  7. L'algèbre complexe

  8. Les transformées de Fourier

  9. Numpy et Matplotlib

SCIKITLEARN

  1. Régressions polynomiales

  2. Le machine Learning avec SKLearn

  3. La régression linéaire

  4. La création du modèle

  5. L'échantillonnage

  6. La randomisation

  7. L'apprentissage avec fit

  8. La prédiction du modèle

  9. Les metrics

  10. Choix du modèle

  11. PreProcessing et Pipeline

  12. Régressions non polynomiales

NEAREST NEIGHBORS

  1. Algorithme des k plus proches voisins (k-NN)

  2. Modèle de classification

  3. K-NN avec SciKitLearn

  4. Choix du meilleur k

  5. Sérialisation du modèle

  6. Variance vs Erreurs

  7. Autres modèles : SVN, Random Forest

PANDAS

  1. L'analyse des données avec Pandas

  2. Les Series

  3. Les DataFrames

  4. La théorie ensembliste avec Pandas

  5. L'importation des données CSV

  6. L'importation de données SQL

  7. L'importation de données MongoDB

  8. Pandas et SKLearn

LE CLUSTERING

  1. Regroupement des données par clusterisation

  2. Les clusters SKLearn avec k-means

  3. Autres modèles de clusterisation : AffinityPropagation, MeanShift, ...

  4. L'apprentissage semi-supervisé

JUPYTER

  1. Présentation de Jupyter et Ipython

  2. Installation

  3. Utilisation de Jupyter avec Mathplotlib et Sklearn

PYTHON YIELD

  1. La programmation efficace en Python

  2. Le générateurs et itérateurs

  3. Le Yield return

  4. Le Yield avec Db-API 2, Pandas et Sklearn

LES RÉSEAUX NEURONAUX

  1. Le perceptron

  2. Les réseaux neuronaux

  3. Les réseaux neuronaux supervisés

  4. Les réseaux neuronaux semi-supervisés

  5. Les réseaux neuronaux par Hadoop Yarn

  6. Les heuristiques

  7. Le deep learning

Durée
5 jours
Lieux
Meylan Moirans Sophia Dans vos locaux Classe distancielle
Groupe de 8 personnes maximum
Demandez un devis
Cette thématique vous intéresse ?
Nos experts conçoivent votre formation sur-mesure On adore les moutons à 5 pattes !
Formations dans la même thématique