Cursus
Formation Introduction au Machine Learning avec Python
Objectifs
Appréhender les notions de data science, apprentissage supervisé et non supervisé.
Utiliser Python et ses bibliothèques pour manipuler des données.
Créer et gérer des DataLake, DataMart et DataWarehouse.
Comprendre et utiliser les différents types de régression, notamment la régression linéaire.
Maîtriser Matplotlib pour afficher des données sous forme de graphiques 2D.
Manipuler des DataFrames et importer des données CSV et SQL.
Créer, entraîner et évaluer des modèles de régression et de classification.
Appliquer l’algorithme des k plus proches voisins (k-NN) et d’autres modèles comme SVM et Random Forest.
Appréhender les concepts de perceptron, réseaux neuronaux MLP et descente du gradient.
Utiliser des bibliothèques pour créer et optimiser des réseaux de neurones, y compris les réseaux convolutifs et le transfert learning.
Pré-requis
Participants
Programme de formation
INTRODUCTION AUX DATA SCIENCES
Qu'est-ce que la data science ?
Qu'est-ce que Python ?
Qu'est-ce que le Machine Learning ?
Apprentissage supervisé vs non supervisé
Les statistiques
La randomisation
La loi normale
RAPPELS DE PYTHON POUR LES DATA SCIENCES
Rappel
PIP
INTRODUCTION AUX DATALAKE, DATAMART ET DATA WHAREHOUSE
Qu'est-ce qu’un DataLake ?
Les différents types de DataLake
Le Big Data
Qu'est-ce qu’un DataWharehouse ?
Qu'est-ce qu’un DataMart ?
Mise en place d'un DataMart
MACHINE LEARNING
Filtrage
Mise en place d'une machine learning supervisée
Qu'est-ce qu’un modèle et un dataset
Qu'est-ce qu’une régression
Les différents types de régression
La régression linéaire
Gestion du risque et des erreurs
Quarter d'Ascombe
Trouver le bon modèle
La classification
Loi normale, variance et écart type
Apprentissage
Mesure de la performance
No Fee Lunch
Les pièges du machine learning : Overfitting, Underfitting
MATPLOTLIB
Utilisation de la bibliothèque scientifique de graphe MatPlotLib
Affichage des données dans un graphique 2D
Affichage des sous-graphes
Affichage des polynômes et de sinusoïdales
PANDAS
Le Data Mining
L'analyse des données avec Pandas
Les DataFrames
La théorie ensembliste avec Pandas
L'importation des données CSV
L'importation des données SQL
Pandas et SKLearn
SCIKITLEARN
Le machine Learning avec SKLearn
La régression linéaire
La création du modèle
L'échantillonnage
La randomisation
L'apprentissage avec fit
La prédiction du modèle
Les metrics
Choix du modèle
PreProcessing et Pipeline
Régressions non polynomiales
NEAREST NEIGHBORS
Algorithme des k plus proches voisins (k-NN)
Modèle de classification
K-NN avec SciKitLearn
Choix du meilleur k
Sérialisation du modèle
Variance vs Erreurs
Autres modèles : SVN, Random Forest
La clusterisation avec k-Means
SCALABLE VECTOR MACHINE
Le modèle SVM
SVM et les petits datasets
Choix du kernel
RANDOM FOREST
Le principe de RF
Principe de la boite blanche
Reverse engineering RF
Les corrélations automatiques
LES RESEAUX NEURONAUX
Le perceptron
Les réseaux neuronaux MLP
La descente du gradient
TENSORFLOW ET KERAS
Les réseaux Denses
Keras
Dimensionnement du réseau
Les réseaux convolutifs
Le transfert learning
Le réapprentissage
L'apprentissage par renforcement
Les modèles courants
- VGG
- RestNet
- Xception
- LSTM
- BERT
- MobileNet
L'optimisation des réseaux