Renforcement
Apprentissage par renforcement
Description : Le cours aborde dans un premier temps les concepts théoriques de l’apprentissage par renforcement: MDP, programmation dynamique et fonctions de valeur (Policy iteration, Value Iteration), méthodes model-free (Différences temporelles, SARSA, Q-Learning). Ces concepts sont ensuite étendus aux systèmes continus où la fonction de valeur doit-être approximée (LSTDQ, DeepRL, …). Ces fondamentaux permettront une meilleure compréhension de succès actuels de l’Intelligence Artificielle, comme par exemple AlphaZero et, dans une moindre mesure, Chat-GPT.
Acquis d’apprentissage : Compréhension des aspects théoriques de l’apprentissage par renforcement et à leur mise en œuvre avec les techniques d’apprentissage profond.
Modalités d’évaluation : Examen écrit de 2h, rattrapable.
Compétences évaluées :
- Modélisation
- Recherche et Développement
Responsable de cours : Hervé Frezza-Buet
Identifiant Geode : 3MD4120