Programme (3 niveaux) Instants Web Formation · Data & Analytics

Data Scientist

Passer de “j’ai des données” à “j’ai une décision” : nettoyage, exploration, modélisation, évaluation, et mise en production raisonnable. Le but : construire des modèles utiles, pas des notebooks qui dorment.

Python & notebooks SQL & data prep Statistiques Machine Learning MLOps (bases)

Pourquoi cette formation

La data devient rentable quand elle est compréhensible, fiable et actionnable. Ici, vous apprenez la méthode complète : préparer proprement, modéliser avec des métriques claires, et livrer un résultat utilisable par une équipe (même petite).

Rigueur

  • Préparer des données propres et traçables.
  • Éviter les biais et les pièges de validation.
  • Lire les métriques sans se raconter d’histoires.

Impact

  • Construire un modèle utile (pas juste “un score”).
  • Relier données → décision → résultat.
  • Présenter clairement à des non-tech.

Employabilité

  • Un projet fil rouge “portfolio-ready”.
  • Des templates et checklists réutilisables.
  • Une méthode de travail crédible en entretien.
Promesse : vous repartez avec un projet propre, lisible, mesurable — et défendable. Le Data Scientist, c’est “je prouve”, pas “je suppose”.

Compétences & livrables

On sort avec des livrables concrets et un cadre de travail : vous pouvez répéter la méthode sur d’autres datasets.

Compétences développées

  • Préparer les données (qualité, nettoyage, features, SQL).
  • Explorer et expliquer (EDA, visualisation, stats utiles).
  • Entraîner et évaluer (pipelines, métriques, validation).
  • Industrialiser (tracking, déploiement, monitoring basique).

Livrables finaux

  • Notebook EDA + rapport de données (qualité, insights).
  • Pipeline de préparation + modèle versionné.
  • Fiche “métriques & interprétation” (lecture business).
  • Dossier projet : README, scripts, checklists, runbook.

Programme — 3 niveaux

Vous choisissez un niveau : un seul bloc s’affiche. Lisible, net, sans surcharge.

Débutant — Bases solides : préparer, explorer, expliquer

Objectif : Python data + SQL + EDA propre + stats fondamentales.

Durée indicative : 28 h (4 jours)

Objectifs pédagogiques

  • Manipuler un dataset avec une méthode claire (pandas, numpy).
  • Nettoyer et contrôler la qualité des données.
  • Réaliser une EDA lisible (insights + visualisations).
  • Comprendre les stats utiles (moyenne, variance, corrélation, tests simples).

Modules

  • Environnement : notebooks, bonnes pratiques, structure projet.
  • Python data : pandas, numpy, data types, joins, groupby.
  • SQL : SELECT, WHERE, JOIN, agrégations, vues simples.
  • EDA : distributions, outliers, data quality, visualisation.

Atelier fil rouge

Transformer un dataset brut en dataset exploitable + rapport EDA “décision”.

Livrable : notebook EDA + checklist qualité + README.

Évaluation & validation

  • Quiz court + restitution EDA (insights + limites).
  • Grille : qualité, clarté, reproductibilité.
  • Attestation de fin de formation.

Traçabilité : émargement, évaluations, bilan (Qualiopi).

Intermédiaire — Machine Learning “propre” : features, modèles, métriques

Objectif : entraîner, valider, comparer et expliquer des modèles de façon crédible.

Durée indicative : 35 h (5 jours)

Objectifs pédagogiques

  • Construire un pipeline : prep → features → entraînement → évaluation.
  • Choisir les bonnes métriques selon le contexte (classification/régression).
  • Éviter les pièges : leakage, surapprentissage, split incorrect.
  • Rendre le modèle explicable (importance, interprétation, limites).

Modules

  • ML avec scikit-learn : régression, classification, baselines.
  • Validation : train/test, cross-validation, courbes, erreurs.
  • Feature engineering : encodage, scaling, sélection, texte simple.
  • Optimisation : tuning, pipelines, gestion du déséquilibre.

Atelier fil rouge

Construire un modèle “défendable” : baseline, version améliorée, métriques et explications.

Livrable : pipeline + notebook évaluation + fiche interprétation.

Évaluation & validation

  • Cas : proposer un modèle + justifier métriques + défendre choix.
  • Critères : rigueur, reproductibilité, lecture business.
  • Attestation + bilan de progression.

Traçabilité : émargement, évaluations, bilan (Qualiopi).

Avancé — MLOps & production : déployer, monitorer, itérer

Objectif : passer du notebook au service : versioning, déploiement, suivi, drift.

Durée indicative : 42 h (6 jours)

Objectifs pédagogiques

  • Versionner et tracer les expérimentations (datasets, params, métriques).
  • Déployer un modèle (API) avec une approche simple et robuste.
  • Mettre en place un monitoring utile (perf, dérive, qualité data).
  • Écrire un runbook : incident, rollback, ré-entraînement.

Modules

  • Packaging : structure projet, dépendances, tests basiques.
  • Déploiement : API, conteneurisation (selon contexte), sécurité basique.
  • Tracking : logs, métriques, versioning (principes + outils selon stack).
  • Monitoring : drift, qualité data, alertes, seuils, itérations.

Atelier fil rouge

Livrer un “mini-produit data” : modèle + API + documentation + monitoring basique.

Livrable : repo complet + runbook + checklist prod.

Évaluation & validation

  • Cas : déployer, documenter, proposer monitoring + plan d’itération.
  • Grille : robustesse, traçabilité, maintenabilité.
  • Attestation + recommandations.

Traçabilité : émargement, évaluations, bilan (Qualiopi).

Modalités & financements

Présentiel ou distanciel : apports courts, ateliers guidés, restitution et corrections. L’objectif est simple : vous repartez avec un projet propre et une méthode reproductible.

OPCO

Dossier entreprise : devis + programme + objectifs + modalités + justificatifs.

  • Émargement, attestation, bilan.
  • Livrables + évaluation traçable.

CPF

Selon éligibilité : objectifs opérationnels + évaluations tracées.

  • Parcours adapté.
  • Traçabilité complète.

France Travail

Pour demandeurs d’emploi : dossier simplifié + planning adapté.

  • Programme + calendrier.
  • Attestation + bilan.

Entreprise

Idéal pour démarrer un cas concret interne et créer une base de standardisation.

  • Atelier “dataset réel” (si possible).
  • Procédures et templates réutilisables.
Conseil : Débutant si vous partez de zéro (Python/SQL/EDA). Intermédiaire si vous voulez modéliser proprement. Avancé si votre objectif est la mise en production et le monitoring.