Reinforcement Learning

11 Modules ~36 heures Intermédiaire → Avancé

Maîtrisez le Reinforcement Learning de la théorie à la pratique : Markov Decision Processes, programmation dynamique, Q-learning, policy gradients, actor-critic, et deep RL moderne (DQN, PPO, SAC) avec PyTorch et Gymnasium.

Roadmap du cours

#	Module	Statut	Sujets
0	Setup & vocabulaire RL	Plan prêt	Agent, environnement, récompense, état, action, policy, retour, épisode
1	Markov Decision Processes	Plan prêt	MDPs, équations de Bellman, fonctions de valeur, policies
2	Programmation dynamique	Plan prêt	Policy iteration, value iteration, RL model-based
3	Monte Carlo & TD	Plan prêt	Prédiction MC, TD(0), SARSA, Q-learning
4	Approximation de fonction	Plan prêt	FA linéaire, FA réseau de neurones, deadly triad
5	Deep Q-Networks	Plan prêt	DQN, replay buffer, target net, Double DQN, Dueling DQN
6	Méthodes Policy Gradient	Plan prêt	REINFORCE, baselines, actor-critic, A2C, A3C
7	Méthodes Trust Region	Plan prêt	TRPO, PPO, GAE, clipping
8	Contrôle continu	Plan prêt	DDPG, TD3, SAC, bruit d'exploration
9	Sujets avancés	Plan prêt	RL multi-agent, RL offline, RL model-based, RLHF pour LLMs
10	Capstone	Plan prêt	Entraîner un agent sur env Gymnasium : MountainCar → LunarLander → env custom

Disponible maintenant

Plan de curriculum publié. Contenu déployé 2026 S2.

Cours liés :

Machine Learning — prérequis supervisés
llm-development — RLHF et DPO pour LLMs

Dernière mise à jour

2026-05 — Plan de curriculum publié.

Roadmap du cours​

Disponible maintenant​

Dernière mise à jour​

Roadmap du cours

Disponible maintenant

Dernière mise à jour