Aller au contenu principal

Reinforcement Learning

11 Modules ~36 heures Intermédiaire → Avancé

Maîtrisez le Reinforcement Learning de la théorie à la pratique : Markov Decision Processes, programmation dynamique, Q-learning, policy gradients, actor-critic, et deep RL moderne (DQN, PPO, SAC) avec PyTorch et Gymnasium.

Roadmap du cours

#ModuleStatutSujets
0Setup & vocabulaire RLPlan prêtAgent, environnement, récompense, état, action, policy, retour, épisode
1Markov Decision ProcessesPlan prêtMDPs, équations de Bellman, fonctions de valeur, policies
2Programmation dynamiquePlan prêtPolicy iteration, value iteration, RL model-based
3Monte Carlo & TDPlan prêtPrédiction MC, TD(0), SARSA, Q-learning
4Approximation de fonctionPlan prêtFA linéaire, FA réseau de neurones, deadly triad
5Deep Q-NetworksPlan prêtDQN, replay buffer, target net, Double DQN, Dueling DQN
6Méthodes Policy GradientPlan prêtREINFORCE, baselines, actor-critic, A2C, A3C
7Méthodes Trust RegionPlan prêtTRPO, PPO, GAE, clipping
8Contrôle continuPlan prêtDDPG, TD3, SAC, bruit d'exploration
9Sujets avancésPlan prêtRL multi-agent, RL offline, RL model-based, RLHF pour LLMs
10CapstonePlan prêtEntraîner un agent sur env Gymnasium : MountainCar → LunarLander → env custom

Disponible maintenant

Plan de curriculum publié. Contenu déployé 2026 S2.

Cours liés :

Dernière mise à jour

2026-05 — Plan de curriculum publié.