Aller au contenu

GRO860 - Apprentissage par renforcement et commande optimale

Présentation

Sommaire

Cycle
1er cycle
Crédits
3 crédits
Faculté ou centre
Faculté de génie
Trimestres *
Automne 2024

Cible(s) de formation

Traduire un problème de décisions séquentielles sous la représentation mathématique adaptée pour synthétiser une politique optimale. Synthétiser une politique (loi de commande) qui prend des décisions optimales en ligne basée sur des observations à l’aide d’outils analytiques (équation de Bellman) et numériques (apprentissage par renforcement et programmation dynamique).

Contenu

Représentation mathématique unifiée pour synthétiser une politique (ex. : choix des forces dans les actionneurs d’un robot, choix des pièces à déplacer lors d’une partie d’échec, etc.). Principe d’optimalité.; Équations de Bellman. Équation de Hamilton–Jacobi–Bellman. Processus de décision basé sur les chaînes de Markov. Programmation dynamique. Algorithme d’itération de valeur. Apprentissage par renforcement. Approximation de fonction. Méthodes avancées d’apprentissage par renforcement avec des réseaux de neurones.

Préalable(s)

Avoir obtenu 82.00 crédits

* Sujet à changement