Data Scientist
Passer de “j’ai des données” à “j’ai une décision” : nettoyage, exploration, modélisation, évaluation, et mise en production raisonnable. Le but : construire des modèles utiles, pas des notebooks qui dorment.
Pourquoi cette formation
La data devient rentable quand elle est compréhensible, fiable et actionnable. Ici, vous apprenez la méthode complète : préparer proprement, modéliser avec des métriques claires, et livrer un résultat utilisable par une équipe (même petite).
Rigueur
- Préparer des données propres et traçables.
- Éviter les biais et les pièges de validation.
- Lire les métriques sans se raconter d’histoires.
Impact
- Construire un modèle utile (pas juste “un score”).
- Relier données → décision → résultat.
- Présenter clairement à des non-tech.
Employabilité
- Un projet fil rouge “portfolio-ready”.
- Des templates et checklists réutilisables.
- Une méthode de travail crédible en entretien.
Compétences & livrables
On sort avec des livrables concrets et un cadre de travail : vous pouvez répéter la méthode sur d’autres datasets.
Compétences développées
- Préparer les données (qualité, nettoyage, features, SQL).
- Explorer et expliquer (EDA, visualisation, stats utiles).
- Entraîner et évaluer (pipelines, métriques, validation).
- Industrialiser (tracking, déploiement, monitoring basique).
Livrables finaux
- Notebook EDA + rapport de données (qualité, insights).
- Pipeline de préparation + modèle versionné.
- Fiche “métriques & interprétation” (lecture business).
- Dossier projet : README, scripts, checklists, runbook.
Programme — 3 niveaux
Vous choisissez un niveau : un seul bloc s’affiche. Lisible, net, sans surcharge.
Débutant — Bases solides : préparer, explorer, expliquer
Objectif : Python data + SQL + EDA propre + stats fondamentales.
Objectifs pédagogiques
- Manipuler un dataset avec une méthode claire (pandas, numpy).
- Nettoyer et contrôler la qualité des données.
- Réaliser une EDA lisible (insights + visualisations).
- Comprendre les stats utiles (moyenne, variance, corrélation, tests simples).
Modules
- Environnement : notebooks, bonnes pratiques, structure projet.
- Python data : pandas, numpy, data types, joins, groupby.
- SQL : SELECT, WHERE, JOIN, agrégations, vues simples.
- EDA : distributions, outliers, data quality, visualisation.
Atelier fil rouge
Transformer un dataset brut en dataset exploitable + rapport EDA “décision”.
Livrable : notebook EDA + checklist qualité + README.
Évaluation & validation
- Quiz court + restitution EDA (insights + limites).
- Grille : qualité, clarté, reproductibilité.
- Attestation de fin de formation.
Traçabilité : émargement, évaluations, bilan (Qualiopi).
Intermédiaire — Machine Learning “propre” : features, modèles, métriques
Objectif : entraîner, valider, comparer et expliquer des modèles de façon crédible.
Objectifs pédagogiques
- Construire un pipeline : prep → features → entraînement → évaluation.
- Choisir les bonnes métriques selon le contexte (classification/régression).
- Éviter les pièges : leakage, surapprentissage, split incorrect.
- Rendre le modèle explicable (importance, interprétation, limites).
Modules
- ML avec scikit-learn : régression, classification, baselines.
- Validation : train/test, cross-validation, courbes, erreurs.
- Feature engineering : encodage, scaling, sélection, texte simple.
- Optimisation : tuning, pipelines, gestion du déséquilibre.
Atelier fil rouge
Construire un modèle “défendable” : baseline, version améliorée, métriques et explications.
Livrable : pipeline + notebook évaluation + fiche interprétation.
Évaluation & validation
- Cas : proposer un modèle + justifier métriques + défendre choix.
- Critères : rigueur, reproductibilité, lecture business.
- Attestation + bilan de progression.
Traçabilité : émargement, évaluations, bilan (Qualiopi).
Avancé — MLOps & production : déployer, monitorer, itérer
Objectif : passer du notebook au service : versioning, déploiement, suivi, drift.
Objectifs pédagogiques
- Versionner et tracer les expérimentations (datasets, params, métriques).
- Déployer un modèle (API) avec une approche simple et robuste.
- Mettre en place un monitoring utile (perf, dérive, qualité data).
- Écrire un runbook : incident, rollback, ré-entraînement.
Modules
- Packaging : structure projet, dépendances, tests basiques.
- Déploiement : API, conteneurisation (selon contexte), sécurité basique.
- Tracking : logs, métriques, versioning (principes + outils selon stack).
- Monitoring : drift, qualité data, alertes, seuils, itérations.
Atelier fil rouge
Livrer un “mini-produit data” : modèle + API + documentation + monitoring basique.
Livrable : repo complet + runbook + checklist prod.
Évaluation & validation
- Cas : déployer, documenter, proposer monitoring + plan d’itération.
- Grille : robustesse, traçabilité, maintenabilité.
- Attestation + recommandations.
Traçabilité : émargement, évaluations, bilan (Qualiopi).
Modalités & financements
Présentiel ou distanciel : apports courts, ateliers guidés, restitution et corrections. L’objectif est simple : vous repartez avec un projet propre et une méthode reproductible.
OPCO
Dossier entreprise : devis + programme + objectifs + modalités + justificatifs.
- Émargement, attestation, bilan.
- Livrables + évaluation traçable.
CPF
Selon éligibilité : objectifs opérationnels + évaluations tracées.
- Parcours adapté.
- Traçabilité complète.
France Travail
Pour demandeurs d’emploi : dossier simplifié + planning adapté.
- Programme + calendrier.
- Attestation + bilan.
Entreprise
Idéal pour démarrer un cas concret interne et créer une base de standardisation.
- Atelier “dataset réel” (si possible).
- Procédures et templates réutilisables.