Scala & Apache Spark
11 Modules ~36 heures Intermédiaire → Avancé
Maîtrisez Scala 3 + Apache Spark 3+ pour le traitement distribué de données : des fondations de la programmation fonctionnelle à l'ETL multi-téraoctet, structured streaming, MLlib, et tuning Spark sur Kubernetes.
Roadmap du cours
| # | Module | Statut | Sujets |
|---|---|---|---|
| 0 | Setup & Hello Spark | Plan prêt | Installer Scala 3, sbt, Spark en Docker, premier DataFrame |
| 1 | Fondamentaux Scala | Plan prêt | Types, immutabilité, case classes, pattern matching |
| 2 | Programmation fonctionnelle | Plan prêt | Higher-order functions, map/flatMap, Option/Either, type classes |
| 3 | Spark Core (RDDs) | Plan prêt | API RDD, transformations vs actions, lineage, persist/cache |
| 4 | Spark SQL & DataFrames | Plan prêt | API DataFrame, schéma, optimiseur Catalyst, joins |
| 5 | Datasets & Encoders | Plan prêt | API type-safe, Encoders, compromis performance |
| 6 | Spark Streaming | Plan prêt | Structured Streaming, watermarks, exactly-once, source Kafka |
| 7 | MLlib | Plan prêt | Pipelines, transformers, estimators, sélection de modèle |
| 8 | Tuning & optimisation | Plan prêt | Partitioning, shuffles, broadcast joins, AQE, gestion skew |
| 9 | Spark en production | Plan prêt | Spark sur Kubernetes, allocation dynamique, Spark Operator, monitoring |
| 10 | Capstone | Plan prêt | Construire un ETL streaming : Kafka → Spark Streaming → Iceberg/Delta Lake |
Disponible maintenant
Plan de curriculum publié. Contenu déployé 2026 S2.
Cours liés :
- aws-data-engineering — data lakes AWS-natives
- Kubernetes — exécuter Spark sur K8s
- Python — alternative PySpark
Dernière mise à jour
2026-05 — Plan de curriculum publié.