GRO860 - Apprentissage par renforcement et commande optimale
Présentation
Sommaire
- Cycle
- 1er cycle
- Crédits
- 3 crédits
- Faculté ou centre
- Faculté de génie
- Trimestres *
- Automne 2024
Cible(s) de formation
Traduire un problème de décisions séquentielles sous la représentation mathématique adaptée pour synthétiser une politique optimale. Synthétiser une politique (loi de commande) qui prend des décisions optimales en ligne basée sur des observations à l’aide d’outils analytiques (équation de Bellman) et numériques (apprentissage par renforcement et programmation dynamique).
Contenu
Représentation mathématique unifiée pour synthétiser une politique (ex. : choix des forces dans les actionneurs d’un robot, choix des pièces à déplacer lors d’une partie d’échec, etc.). Principe d’optimalité.; Équations de Bellman. Équation de Hamilton–Jacobi–Bellman. Processus de décision basé sur les chaînes de Markov. Programmation dynamique. Algorithme d’itération de valeur. Apprentissage par renforcement. Approximation de fonction. Méthodes avancées d’apprentissage par renforcement avec des réseaux de neurones.
Préalable(s)
Avoir obtenu 82.00 crédits* Sujet à changement