Agent Oriented Learning -- Distributed Artificial Intelligence, Université Paris Descartes

Source pour ce cours:

Reinforcement Learning par Richard S. Sutton et Andrew G. Barto (MIT Press) seconde édition, 2018.
Chapitre 10 de Multiagent Systems édité par Gerhard Weiss (MIT Press, 2013)
Chapitre 7 de Multiagent Systems (Algorithmic, Game-Theoretic, and Logical Foundations) de Yoav Shoham et Kevin Leyton-Brown (Cambridge University Press, 2009)

Déroulement du cours (tentative) et transparents

(séances 1, 2, 3 et 4) présentation du problème d'apprentissage par renforcement et processus décisionnel markovien (séances 1-3)
(séance 5) apprendre en situation multiagent (situations de conflits ou de coopération)
(séances 6) autres méthodes d'apprentissage basé sur des systèmes multiagents (Evolutionary Game Theory, Swarm intelligence)

Séance 1: Introduction et problème des bandits manchots (slides)

Introduction: apprentissage par renforcement
Le modèle général
Modélisation
Le problème des k-bandits manchots ou comment jouer aux machines à sous
- ε-greedy
- initialisation optimiste
- UCB
- bandit gradient

Séance 2: Processus décisionnels de Markov (slides)

Value Iteration
Policy Iteration
Apprentissage Monte Carlo
Homework: Méthode de Monte Carlo -- Evaluation et Optimisation

Séance 3: Résoudre un PDM inconnu (slides)

Méthodes différences temporelles
un mot sur l'utilisation de l'approximation si l'ensemble des états ou l'ensemble des actions devient trop grand.
homework: résolution de Frozen lake avec SARSA et Q-learning, problème du cart-pole en tabulaire en discrétisant l'espace (notebook python)

Séance 4: Approximation (slides)

Approximer la fonction de valeur: Semi gradient SARSA, Deep Q-learning
Apprendre une politique: Reinforce et l'idée sur les méthode acteur-critiques.

Séance 5: Apprentissage et jeux non-coopératifs (transparents)

ancien exam (sujet 2020)

Devoir/Projet

On a étudié des algorithmes, surtout basés sur l'apprentissage par renforcement, pour apprende en intéragissant avec l'environnement. Pour l'apprentissage, on a souvent fait l'hypothèse que l'agent était seul et que l'environnement était stationnaire. Apprendre dans un cadre multi-agent est plus difficile car chque agent va essayer de s'adapter aux changements des autres agents. Pour ce qui est de l'exploration, elle risque de ne pas être coordonnée, ce qui va rendre la chose également plus difficile. Evidemment, un agent intelligent et autonome devrait idéalement apprendre dans n'importe quelle situation.

On peut donc s'interroger sur comment développer des algorithmes d'apprentissage multiagent: comment comparer les approches, comment les évaluer, est-ce que l'approche est spéacialisée sur un type de tâches ou plutôt général, etc... Pour aider les chercheurs à répondre à ces questions DeepMind a mis en place une plateforme nommée Melting Pot (plus de détail sur leur page github) pour évaluer les algorithmes d'apprentissage multiagent par renforcement.

Votre tâche est de choisir un des scénarios de la suite Melting pot et d'écrire un rapport à ce sujet. Placez-vous dans la situation ou vous devez écrire une proposition de sujet de recherche (comme si vous proposiez un sujet de thèse ou vous répondiez à un appel d'offre). Vous devrez exposer votre problématique de recherche, et justifier comment, ici à l'aide du scenario, vous allez pouvoir évaluer comment vous répondrez à votre problématique. Si vous avez déjà des pistes pour commencer le travail, vous pouvez les exposer. Vous pouvez aussi décrire les limitations de votre étude (par exemple si le scenario vous permet d'étudier seulement une facette de votre problématique et que vous aurez besoin d'autres scenarios, ou d'autres choses pour répondre à votre problématique).

deadline: 31 janvier 2022
Template LaTeX pour l'article
votre document doit avoir 8 pages max.
le projet peut être effectué en binôme