Scala & Apache Spark

11 Modules ~36 heures Intermédiaire → Avancé

Maîtrisez Scala 3 + Apache Spark 3+ pour le traitement distribué de données : des fondations de la programmation fonctionnelle à l'ETL multi-téraoctet, structured streaming, MLlib, et tuning Spark sur Kubernetes.

Roadmap du cours

#	Module	Statut	Sujets
0	Setup & Hello Spark	Plan prêt	Installer Scala 3, sbt, Spark en Docker, premier DataFrame
1	Fondamentaux Scala	Plan prêt	Types, immutabilité, case classes, pattern matching
2	Programmation fonctionnelle	Plan prêt	Higher-order functions, map/flatMap, Option/Either, type classes
3	Spark Core (RDDs)	Plan prêt	API RDD, transformations vs actions, lineage, persist/cache
4	Spark SQL & DataFrames	Plan prêt	API DataFrame, schéma, optimiseur Catalyst, joins
5	Datasets & Encoders	Plan prêt	API type-safe, Encoders, compromis performance
6	Spark Streaming	Plan prêt	Structured Streaming, watermarks, exactly-once, source Kafka
7	MLlib	Plan prêt	Pipelines, transformers, estimators, sélection de modèle
8	Tuning & optimisation	Plan prêt	Partitioning, shuffles, broadcast joins, AQE, gestion skew
9	Spark en production	Plan prêt	Spark sur Kubernetes, allocation dynamique, Spark Operator, monitoring
10	Capstone	Plan prêt	Construire un ETL streaming : Kafka → Spark Streaming → Iceberg/Delta Lake

Disponible maintenant

Plan de curriculum publié. Contenu déployé 2026 S2.

Cours liés :

aws-data-engineering — data lakes AWS-natives
Kubernetes — exécuter Spark sur K8s
Python — alternative PySpark

Dernière mise à jour

2026-05 — Plan de curriculum publié.

Roadmap du cours​

Disponible maintenant​

Dernière mise à jour​

Roadmap du cours

Disponible maintenant

Dernière mise à jour