Reinforcement Learning
11 Modules ~36 heures Intermédiaire → Avancé
Maîtrisez le Reinforcement Learning de la théorie à la pratique : Markov Decision Processes, programmation dynamique, Q-learning, policy gradients, actor-critic, et deep RL moderne (DQN, PPO, SAC) avec PyTorch et Gymnasium.
Roadmap du cours
| # | Module | Statut | Sujets |
|---|---|---|---|
| 0 | Setup & vocabulaire RL | Plan prêt | Agent, environnement, récompense, état, action, policy, retour, épisode |
| 1 | Markov Decision Processes | Plan prêt | MDPs, équations de Bellman, fonctions de valeur, policies |
| 2 | Programmation dynamique | Plan prêt | Policy iteration, value iteration, RL model-based |
| 3 | Monte Carlo & TD | Plan prêt | Prédiction MC, TD(0), SARSA, Q-learning |
| 4 | Approximation de fonction | Plan prêt | FA linéaire, FA réseau de neurones, deadly triad |
| 5 | Deep Q-Networks | Plan prêt | DQN, replay buffer, target net, Double DQN, Dueling DQN |
| 6 | Méthodes Policy Gradient | Plan prêt | REINFORCE, baselines, actor-critic, A2C, A3C |
| 7 | Méthodes Trust Region | Plan prêt | TRPO, PPO, GAE, clipping |
| 8 | Contrôle continu | Plan prêt | DDPG, TD3, SAC, bruit d'exploration |
| 9 | Sujets avancés | Plan prêt | RL multi-agent, RL offline, RL model-based, RLHF pour LLMs |
| 10 | Capstone | Plan prêt | Entraîner un agent sur env Gymnasium : MountainCar → LunarLander → env custom |
Disponible maintenant
Plan de curriculum publié. Contenu déployé 2026 S2.
Cours liés :
- Machine Learning — prérequis supervisés
- llm-development — RLHF et DPO pour LLMs
Dernière mise à jour
2026-05 — Plan de curriculum publié.