Aller au contenu principal

Scala & Apache Spark

11 Modules ~36 heures Intermédiaire → Avancé

Maîtrisez Scala 3 + Apache Spark 3+ pour le traitement distribué de données : des fondations de la programmation fonctionnelle à l'ETL multi-téraoctet, structured streaming, MLlib, et tuning Spark sur Kubernetes.

Roadmap du cours

#ModuleStatutSujets
0Setup & Hello SparkPlan prêtInstaller Scala 3, sbt, Spark en Docker, premier DataFrame
1Fondamentaux ScalaPlan prêtTypes, immutabilité, case classes, pattern matching
2Programmation fonctionnellePlan prêtHigher-order functions, map/flatMap, Option/Either, type classes
3Spark Core (RDDs)Plan prêtAPI RDD, transformations vs actions, lineage, persist/cache
4Spark SQL & DataFramesPlan prêtAPI DataFrame, schéma, optimiseur Catalyst, joins
5Datasets & EncodersPlan prêtAPI type-safe, Encoders, compromis performance
6Spark StreamingPlan prêtStructured Streaming, watermarks, exactly-once, source Kafka
7MLlibPlan prêtPipelines, transformers, estimators, sélection de modèle
8Tuning & optimisationPlan prêtPartitioning, shuffles, broadcast joins, AQE, gestion skew
9Spark en productionPlan prêtSpark sur Kubernetes, allocation dynamique, Spark Operator, monitoring
10CapstonePlan prêtConstruire un ETL streaming : Kafka → Spark Streaming → Iceberg/Delta Lake

Disponible maintenant

Plan de curriculum publié. Contenu déployé 2026 S2.

Cours liés :

Dernière mise à jour

2026-05 — Plan de curriculum publié.