Renforcement

Apprentissage par renforcement

Description : Le cours aborde dans un premier temps les concepts théoriques de l’apprentissage par renforcement: MDP, programmation dynamique et fonctions de valeur (Policy iteration, Value Iteration), méthodes model-free (Différences temporelles, SARSA, Q-Learning). Ces concepts sont ensuite étendus aux systèmes continus où la fonction de valeur doit-être approximée (LSTDQ, DeepRL, …). Ces fondamentaux permettront une meilleure compréhension de succès actuels de l’Intelligence Artificielle, comme par exemple AlphaZero et, dans une moindre mesure, Chat-GPT.

Acquis d’apprentissage : Compréhension des aspects théoriques de l’apprentissage par renforcement et à leur mise en œuvre avec les techniques d’apprentissage profond.

Modalités d’évaluation : Examen écrit de 2h, rattrapable.

Compétences évaluées :

Modélisation
Recherche et Développement

Responsable de cours : Hervé Frezza-Buet

Identifiant Geode : 3MD4120