^{PDFprof.com Search Engine}

Stabilisation d'un pendule inversé à l'aide d'un apprentissage par

PDF

Images

List Docs

Qu'est-ce que le pendule inversé ?
Le pendule inversé est un problème classique de contrôle optimal dont l’objectif est de maintenir à l’équilibre un poids sur un chariot mobile. L’état est décrit par un vecteur composé de l’angle θ, de la vitesse angulaire ω, de la position relative du chariot ainsi que de la vitesse de ce dernier.
Quels sont les avantages de la stabilisation du pendule ?
Dans le cas de la stabilisation du pendule, le chariot bougerait de façon quasi aléatoire sans parvenir à maintenir le pendule en position haute. 3. La première approche – souvent nommée ‘hardware in the loop’ - a l’avantage de ne pas nécessiter de modèle de l’environnement. Elle n’est cependant que rarement privilégiée.
Comment maximiser la récompense du pendule ?
Maximiser cette récompense a pour effet de maintenir le pendule en position haute. Le fait que le pendule soit en équilibre en position haute est une conséquence de la maximisation de la récompense. La « Mission 2 » récompense la vitesse du pendule. Maximiser la récompense revient à faire le plus de tours possibles dans le temps imparti.
Comment l'agent peut-il maintenir le pendule en position haute ?
La fenêtre « Reinforcement Learning Episode Manager » apparait. La courbe bleue représente la récompense cumulée à chaque épisode. Celle orange représente la récompense que l’agent espère obtenir. Une fois l’entrainement terminé, Inférer sur le modèle. L’agent doit être capable de maintenir le pendule en position haute sur la simulation.

Introduction à l’apprentissage par renforcement

Stabilisation d'un pendule inversé à l'aide d'un apprentissage par

Qu'est-ce que le pendule inversé ?

Quels sont les avantages de la stabilisation du pendule ?

Comment maximiser la récompense du pendule ?

Comment l'agent peut-il maintenir le pendule en position haute ?