Le pendule inversé est un problème classique de contrôle optimal dont l’objectif est de maintenir à l’équilibre un poids sur un chariot mobile. L’état est décrit par un vecteur composé de l’angle θ, de la vitesse angulaire ω, de la position relative du chariot ainsi que de la vitesse de ce dernier.
Dans le cas de la stabilisation du pendule, le chariot bougerait de façon quasi aléatoire sans parvenir à maintenir le pendule en position haute. 3. La première approche – souvent nommée ‘hardware in the loop’ - a l’avantage de ne pas nécessiter de modèle de l’environnement. Elle n’est cependant que rarement privilégiée.
Maximiser cette récompense a pour effet de maintenir le pendule en position haute. Le fait que le pendule soit en équilibre en position haute est une conséquence de la maximisation de la récompense. La « Mission 2 » récompense la vitesse du pendule. Maximiser la récompense revient à faire le plus de tours possibles dans le temps imparti.
La fenêtre « Reinforcement Learning Episode Manager » apparait. La courbe bleue représente la récompense cumulée à chaque épisode. Celle orange représente la récompense que l’agent espère obtenir. Une fois l’entrainement terminé, Inférer sur le modèle. L’agent doit être capable de maintenir le pendule en position haute sur la simulation.