INSTITUT NATIONAL POLYTECHNIQUE DE GRENOBLE

Musée de Grenoble PRESS RELEASE GEORGIA O’KEEFFE and her photographer friends Musée de Grenoble 7 nov 2015 - 7 feb 2016 As the first solo show in France to be devoted to the American painter Georgia O’Keeffe, the exhibition scheduled this autumn at the Musée de Grenoble is an outstanding event

Université Pierre Mendès-France de Grenoble

Université Pierre Mendès-France de Grenoble Abstract The case of Switzerland appears to be unique with regard to the European Economic and Mo-netary Integration Process which began in 1957: even though the country has cultivated close ties and growing links with the European Union (EU) over time, it does not desire full mem-bership

March 8-9, 2010 Institut Polytechnique de Grenoble

Institut Polytechnique de Grenoble Grenoble, France The main purpose of this seminar is to discuss: (i) the current issues in electromagnetic, thermal, and structural mode-ling of the process of microwave sintering on the macroscopic level; (ii) challenges in the related numerical mathematics and implementation of computational algorithms; and

EVALUATION OF THE PERFORMANCE OF CANDIDA ID2, A NEW

1Laboratoire de Parasitologie-Mycologie, CHU de Grenoble, France, ²bioMérieux R&D, Marcy l’Etoile, France OBJECTIVE This study aimed at evaluating biological performance of the Candida ID2 medium used for the research or the presumptive identification of yeasts and fungi in biological sampling

INSTITUT NATIONAL POLYTECHNIQUE DE GRENOBLE

INSTITUT NATIONAL POLYTECHNIQUE DE GRENOBLE THESE` pour obtenir le grade de DOCTEUR DE L’INPG Sp´ecialit´e : Sciences Cognitives pr´epar´ee au Laboratoire Leibniz-IMAG dans le cadre de l’Ecole Doctorale Ing´enierie pour le Vivant : Sant´e, Cognition, Environnement pr´esent´ee et soutenue publiquement par M R´emi Coulom le 19 juin

Etude de marché immobilier

Nombre de logements / nombre d’habitants par logement p 13 Types de logements à Grenoble p 14 Types de ménages à Grenoble p 14 Vacance locative p 15 Etape 6 : La demande locative p 16 Prix du loyer au mètre carré p 16

MyCHUGA - LAlliance Université Entreprise de Grenoble

Pas de remise des résultats issus de la génomique Certains examens spécifiques représentant une faile quantité dexamens réalisés pour les externes (1,4 pour le VIH et 0,5 pour les autres –maladies rares-)

Supplementary Appendix

Supplementary Appendix This appendix has been provided by the authors to give readers additional information about their work Supplement to: Zinman B, Wanner C, Lachin JM, et al Empagliflozin

[PDF] Association X XXX X F-XXXXX Xxx

[PDF] Les p tits problèmes pour chercher

[PDF] PMI GUIDE À LA CRÉATION DE. Maisons d Assistants Maternels (MAM)

[PDF] EVALUATION DES RISQUES PROFESSIONNELS. Document Unique. Guide méthodologique d aide à la mise en œuvre

[PDF] BANQUE ROYALE DU CANADA POLITIQUE SUR L INDÉPENDANCE DES ADMINISTRATEURS

[PDF] Hospitalisation A Domicile: conciliation entre obligations d établissement de santé et le contexte du domicile

[PDF] AU FIL DES DOSSIERS DU CONSEIL GÉNÉRAL

[PDF] CONVENTION ENTRE LES SOUSSIGNÉS

[PDF] Le tertiaire supérieur : Un potentiel de création de 20 000 emplois sur la métropole d ici 2020?

[PDF] ADHESION saison 2015/2016

[PDF] BILAN D ACTIVITE 2013 CDG 46

[PDF] Les compétences des collectivités territoriales en matière de biodiversité

[PDF] 1. Loi relative à la modernisation de l action publique territoriale et d affirmation des métropoles (dite «loi MAPTAM» ou «MAPAM» ou «MAP»)

[PDF] REGLEMENT INTERIEUR PREAMBULE. Principes généraux inspirant le règlement de l'adapei 35 Les papillons blancs d Ille-et- Vilaine (1)

[PDF] Ecole Collège LUZY-DUFEILLANT LES AXES DU PROJET D ETABLISSEMENT

INSTITUT NATIONAL POLYTECHNIQUE DE GRENOBLE

TH `ESE pour obtenir le grade de

DOCTEUR DE L"INPG

Sp´ecialit´e : Sciences Cognitives

pr´epar´ee au Laboratoire Leibniz-IMAG dans le cadre de l"Ecole Doctorale Ing´enierie pour le Vivant: Sant´e,

Cognition, Environnement

pr´esent´ee et soutenue publiquement par

M. R´emi Coulom

le 19 juin 2002

Titre :

Apprentissage par renforcement utilisant des r´eseaux deneurones, avec des applications au contrˆole moteur

Directeur de Th`ese : M. Philippe Jorrand

JURY

M. Jean Della Dora Pr´esident

M. Kenji Doya Rapporteur

M. Manuel Samuelides Rapporteur

M. St´ephane Canu Rapporteur

M. Philippe Jorrand Directeur de th`ese

Mme. Mirta B. Gordon Examinateur

Remerciements

Je remercie Monsieur Philippe Jorrand pour avoir ´et´e mon directeur de th`ese. Je remercie les membres du jury, Mme Mirta Gordon, Messieurs Kenji Doya, Manuel Samuelides, St´ephane Canu et Jean Della Dora pour avoir accept´e d"´evaluer mon travail, et pour leurs remarques pertinentes qui ont permis d"am´eliorer ce texte. Je remercie les chercheurs dulaboratoire Leibniz pour leur accueil, en particulier son directeur, Monsieur Nicolas Balacheff, et les membres des ´equipes"Apprentissage et Cognition"et"R´eseaux de Neuro- nes", Messieurs Gilles Bisson, Daniel Memmi et Bernard Amy, ainsi que tous les ´etudiants avec lesquels j"ai travaill´e. Je remercie enfin le responsable de la Formation Doctorale en Sciences Cognitives, Monsieur PierreEscudier, pour ses conseils.

Table des mati`eres

R´esum´e (Summary in French)9

Introduction. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Contexte. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Apprentissage par renforcement et r´eseaux de neurones. . . . 11 R´esum´e et contributions. . . . . . . . . . . . . . . . . . . . . 12 Plan de la th`ese. . . . . . . . . . . . . . . . . . . . . . . . . . 13 Th´eorie. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 Exp´eriences. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 Conclusion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

Introduction27

Background. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 Reinforcement Learning using Neural Networks. . . . . . . . . . . 28 Summary and Contributions. . . . . . . . . . . . . . . . . . . . . . 30 Outline. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

I Theory33

1 Dynamic Programming35

1.1 Discrete Problems. . . . . . . . . . . . . . . . . . . . . . . . . 35

1.1.1 Finite Discrete Deterministic Decision Processes. . . . 35

1.1.2 Example. . . . . . . . . . . . . . . . . . . . . . . . . . 37

1.1.3 Value Iteration. . . . . . . . . . . . . . . . . . . . . . 37

1.1.4 Policy Evaluation. . . . . . . . . . . . . . . . . . . . . 41

1.1.5 Policy Iteration. . . . . . . . . . . . . . . . . . . . . . 41

1.2 Continuous Problems. . . . . . . . . . . . . . . . . . . . . . . 42

1.2.1 Problem Definition. . . . . . . . . . . . . . . . . . . . 42

TABLE DES MATI`ERES

1.2.2 Example. . . . . . . . . . . . . . . . . . . . . . . . . . 43

1.2.3 Problem Discretization. . . . . . . . . . . . . . . . . . 45

1.2.4 Pendulum Swing-Up. . . . . . . . . . . . . . . . . . . 50

1.2.5 The Curse of Dimensionality. . . . . . . . . . . . . . . 51

2 Artificial Neural Networks53

2.1 Function Approximators. . . . . . . . . . . . . . . . . . . . . 53

2.1.1 Definition. . . . . . . . . . . . . . . . . . . . . . . . . 53

2.1.2 Generalization. . . . . . . . . . . . . . . . . . . . . . . 54

2.1.3 Learning. . . . . . . . . . . . . . . . . . . . . . . . . . 55

2.2 Gradient Descent. . . . . . . . . . . . . . . . . . . . . . . . . 56

2.2.1 Steepest Descent. . . . . . . . . . . . . . . . . . . . . 56

2.2.2 Efficient Algorithms. . . . . . . . . . . . . . . . . . . 57

2.2.3 Batchvs.Incremental Learning. . . . . . . . . . . . . 59

2.3 Some Approximation Schemes. . . . . . . . . . . . . . . . . . 62

2.3.1 Linear Function Approximators. . . . . . . . . . . . . 62

2.3.2 Feedforward Neural Networks. . . . . . . . . . . . . . 64

3 Continuous Neuro-Dynamic Programming67

3.1 Value Iteration. . . . . . . . . . . . . . . . . . . . . . . . . . 67

3.1.1 Value-Gradient Algorithms. . . . . . . . . . . . . . . . 67

3.1.2 Residual-Gradient Algorithms. . . . . . . . . . . . . . 69

3.1.3 Continuous Residual-Gradient Algorithms. . . . . . . 69

3.2 Temporal Difference Methods. . . . . . . . . . . . . . . . . . 72

3.2.1 Discrete TD(λ). . . . . . . . . . . . . . . . . . . . . . 72

3.2.2 TD(λ) with Function Approximators. . . . . . . . . . 75

3.2.3 Continuous TD(λ). . . . . . . . . . . . . . . . . . . . 76

3.2.4 Back to Grid-Based Estimators. . . . . . . . . . . . . 78

3.3 Summary. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

4 Continuous TD(λ) in Practice83

4.1 Finding the Greedy Control. . . . . . . . . . . . . . . . . . . 83

4.2 Numerical Integration Method. . . . . . . . . . . . . . . . . . 85

4.2.1 Dealing with Discontinuous Control. . . . . . . . . . . 85

4.2.2 Integrating Variables Separately. . . . . . . . . . . . . 88

4.2.3 State Discontinuities. . . . . . . . . . . . . . . . . . . 91

4.2.4 Summary. . . . . . . . . . . . . . . . . . . . . . . . . 92

4.3 Efficient Gradient Descent. . . . . . . . . . . . . . . . . . . . 93

4.3.1 Principle. . . . . . . . . . . . . . . . . . . . . . . . . . 94

4.3.2 Algorithm. . . . . . . . . . . . . . . . . . . . . . . . . 94

4.3.3 Results. . . . . . . . . . . . . . . . . . . . . . . . . . . 95

TABLE DES MATI`ERES

4.3.4 Comparison with Second-Order Methods. . . . . . . . 95

4.3.5 Summary. . . . . . . . . . . . . . . . . . . . . . . . . 96

II Experiments97

5 Classical Problems99

5.1 Pendulum Swing-up. . . . . . . . . . . . . . . . . . . . . . . 99

5.2 Cart-Pole Swing-up. . . . . . . . . . . . . . . . . . . . . . . . 102

5.3 Acrobot. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

5.4 Summary. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

6 Robot Auto Racing Simulator109

6.1 Problem Description. . . . . . . . . . . . . . . . . . . . . . . 109

6.1.1 Model. . . . . . . . . . . . . . . . . . . . . . . . . . . 109

6.1.2 Techniques Used by Existing Drivers. . . . . . . . . . 110

6.2 Direct Application of TD(λ). . . . . . . . . . . . . . . . . . . 111

6.3 Using Features to Improve Learning. . . . . . . . . . . . . . . 114

6.4 Conclusion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

7 Swimmers117

7.1 Problem Description. . . . . . . . . . . . . . . . . . . . . . . 117

7.2 Experiment Results. . . . . . . . . . . . . . . . . . . . . . . . 118

7.3 Summary. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

Conclusion127

Appendices131

A Backpropagation131

A.1 Notations. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 A.1.1 Feedforward Neural Networks. . . . . . . . . . . . . . 131 A.1.2 The∂?Notation. . . . . . . . . . . . . . . . . . . . . 132 A.2 Computing∂E/∂??w. . . . . . . . . . . . . . . . . . . . . . . 133 A.3 Computing∂?y/∂??x. . . . . . . . . . . . . . . . . . . . . . . . 133 A.4 Differential Backpropagation. . . . . . . . . . . . . . . . . . . 134 7

TABLE DES MATI`ERES

B Optimal-Control Problems137

B.1 Pendulum. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 B.1.1 Variables and Parameters. . . . . . . . . . . . . . . . 137 B.1.2 System Dynamics. . . . . . . . . . . . . . . . . . . . . 138 B.1.3 Reward. . . . . . . . . . . . . . . . . . . . . . . . . . 138 B.1.4 Numerical Values. . . . . . . . . . . . . . . . . . . . . 138 B.2 Acrobot. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 B.2.1 Variables and Parameters. . . . . . . . . . . . . . . . 138 B.2.2 System Dynamics. . . . . . . . . . . . . . . . . . . . . 139 B.2.3 Reward. . . . . . . . . . . . . . . . . . . . . . . . . . 140 B.2.4 Numerical Values. . . . . . . . . . . . . . . . . . . . . 140 B.3 Cart-Pole. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 B.3.1 Variables and Parameters. . . . . . . . . . . . . . . . 140 B.3.2 System Dynamics. . . . . . . . . . . . . . . . . . . . . 141 B.3.3 Reward. . . . . . . . . . . . . . . . . . . . . . . . . . 143 B.3.4 Numerical Values. . . . . . . . . . . . . . . . . . . . . 143 B.4 Swimmer. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 B.4.1 Variables and Parameters. . . . . . . . . . . . . . . . 143 B.4.2 Model of Viscous Friction. . . . . . . . . . . . . . . . 144 B.4.3 System Dynamics. . . . . . . . . . . . . . . . . . . . . 145 B.4.4 Reward. . . . . . . . . . . . . . . . . . . . . . . . . . 145 B.4.5 Numerical Values. . . . . . . . . . . . . . . . . . . . . 145

C The K1999 Path-Optimization Algorithm147

C.1 Basic Principle. . . . . . . . . . . . . . . . . . . . . . . . . . 147 C.1.1 Path. . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 C.1.2 Speed Profile. . . . . . . . . . . . . . . . . . . . . . . 148 C.2 Some Refinements. . . . . . . . . . . . . . . . . . . . . . . . . 149 C.2.1 Converging Faster. . . . . . . . . . . . . . . . . . . . . 149 C.2.2 Security Margins. . . . . . . . . . . . . . . . . . . . . 149 C.2.3 Non-linear Variation of Curvature. . . . . . . . . . . . 150 C.2.4 Inflections. . . . . . . . . . . . . . . . . . . . . . . . . 150 C.2.5 Further Improvements by Gradient Descent. . . . . . 150 C.3 Improvements Made in the 2001 Season. . . . . . . . . . . . . 152 C.3.1 Better Variation of Curvature. . . . . . . . . . . . . . 152 C.3.2 Better Gradient Descent Algorithm. . . . . . . . . . . 155 C.3.3 Other Improvements. . . . . . . . . . . . . . . . . . . 158 8

R´esum´e (Summary in French)

Ce r´esum´e est compos´e d"une traduction de l"introduction et de la conclu- sion de la th`ese, ainsi que d"une synth`ese des r´esultats pr´esent´es dans le d´e- veloppement. La traduction est assez grossi`ere, et les lecteursanglophones sont vivement encourag´es `a lire la version originale.

Introduction

Construire des contrˆoleurs automatiques pour des robots oudes m´eca- nismes de toutes sortes a toujours repr´esent´e un grand d´efi pour les scienti- fiques et les ing´enieurs. Les performances des animaux dans les tˆaches mo- trices les plus simples, telles que la marche ou la natation, s"av`erent extrˆe- ment difficiles `a reproduire dans des syst`emes artificiels, qu"ils soient simul´es ou r´eels. Cette th`ese explore comment des techniques inspir´ees par la Na- ture, les r´eseaux de neurones artificiels et l"apprentissage par renforcement, peuvent aider `a r´esoudre de tels probl`emes.

Contexte

Trouver des actions optimales pour contrˆoler le comportement d"un sys- t`eme dynamique est crucial dans de nombreuses applications, telles que la robotique, les proc´ed´es industriels, ou le pilotage de v´ehicules spatiaux. Des efforts de recherche de grande ampleur ont ´et´e produits pour traiter les ques- tions th´eoriques soulev´ees par ces probl`emes, et pour fournir des m´ethodes pratiques permettant de construire des contrˆoleurs efficaces. L"approche classique de la commande optimale num´erique consiste `a cal- culer une trajectoire optimale en premier. Ensuite, un contrˆoleur peut ˆetre construit pour suivre cette trajectoire. Ce type de m´ethode est souvent uti- lis´e dans l"astronautique, ou pour l"animation de personnages artificiels dans des films. Les algorithmes modernes peuvent r´esoudre des probl`emes tr`es complexes, tels que la d´emarche simul´ee optimale de Hardtet al[ 30].
9

R´ESUM´E (SUMMARY IN FRENCH)

Bien que ces m´ethodes peuvent traiter avec pr´ecision des syst`emes tr`es complexes, elles ont des limitations. En particulier, calculer une trajectoire optimale est souvent trop coˆuteux pour ˆetre fait en ligne. Cen"est pas un probl`eme pour les sondes spatiales ou l"animation, car connaˆıtre une seule trajectoire optimale en avance suffit. Dans d"autres situations, cependant, la dynamique du syst`eme peut ne pas ˆetre compl`etement pr´evisible et il peut ˆetre n´ecessaire de trouver de nouvelles actions optimales rapidement. Par exemple, si un robot marcheur tr´ebuche sur un obstacle impr´evu, il doit r´eagir rapidement pour retrouver son ´equilibre. Pour traiter ce probl`eme, d"autres m´ethodes ont ´et´e mises au point. Elles permettent de construire des contrˆoleurs qui produisent desactions optimales quelle que soit la situation, pas seulement dans le voisinage d"une trajectoire pr´e-calcul´ee. Bien sˆur, c"est une tˆache beaucoup plus difficile que trouver une seule trajectoire optimale, et donc, ces techniques ont des performances qui, en g´en´eral, sont inf´erieures `a celles des m´ethodes classiques de la commande optimale lorsqu"elles sont appliqu´ees `a des probl`emes o`ules deux peuvent

ˆetre utilis´ees.

Une premi`ere possibilit´e consiste `a utiliser un r´eseau de neurones (ou n"importe quel type d"approximateur de fonctions) avec un algorithme d"ap- prentissage supervis´e pour g´en´eraliser la commande `a partir d"un ensemble de trajectoires. Ces trajectoires peuvent ˆetre obtenues enenregistrant les ac- tions d"experts humains, ou en les g´en´erant avec des m´ethodes de commande optimale num´erique. Cette derni`ere technique est utilis´ee dans l"algorithme d"´evitement d"obstacles mobiles de Lachneret al.[

35], par exemple.

Une autre solution consiste `a chercher directement dans un ensemble de contrˆoleurs avec un algorithme d"optimization. Van de Panne [

50] a combin´e

une recherche stochastique avec une descente de gradient pour optimiser des contrˆoleurs. Les algorithmes g´en´etiques sont aussi bien adapt´es pour effectuer cette optimisation, car l"espace des contrˆoleurs a une structure complexe.

Sims [

63,62] a utilis´e cette technique pour faire ´evoluer des cr´eatures vir-

tuelles tr`es spectaculaires qui marchent, combattent ou suivent des sources de lumi`ere. De nombreux autres travaux de recherche ont obtenus des contrˆo- leurs grˆace aux algorithmes g´en´etiques, comme, par exemple ceux de Meyer et al.[ 38].
Enfin, une large famille de techniques pour construire de telscontrˆoleurs est bas´ee sur les principes de la programmation dynamique, qui ont ´et´e in- troduits par Bellman dans les premiers jours de la th´eorie du contrˆole [ 13]. En particulier, la th´eorie de l"apprentissage par renforcement (ou program- mation neuro-dynamique, qui est souvent consid´er´ee comme unsynonyme) a ´et´e appliqu´ee avec succ`es `a un grande vari´et´e de probl`emes de commande. C"est cette approche qui sera d´evelopp´ee dans cette th`ese. 10

INTRODUCTION

Apprentissage par renforcement et r´eseaux de neurones L"apprentissage par renforcement, c"est apprendre `a agir paressai et er- reur. Dans ce paradigme, un agent peut percevoir sont ´etat eteffectuer des actions. Apr`es chaque action, une r´ecompense num´erique est donn´ee. Le but de l"agent est de maximiser la r´ecompense totale qu"il re¸coitau cours du temps. Une grande vari´et´e d"algorithmes ont ´et´e propos´es, qui selectionnent les actions de fa¸con `a explorer l"environnement et `a graduellement construire une strat´egie qui tend `a obtenir une r´ecompense cumul´ee maximale [

68,33].

Ces algorithmes ont ´et´e appliqu´es avec succ`es `a des probl`emes complexes, tels que les jeux de plateau [

70], l"ordonnancement de tˆaches [81], le contrˆole

d"ascenceurs [

20] et, bien sˆur, des tˆaches de contrˆole moteur, simul´ees [67,24]

ou r´eelles [

41,5].

Model-based et model-free

Ces algorithmes d"apprentissage par renforcement peuvent ˆetre divis´es en deux cat´egories : les algorithmes ditsmodel-based(ou indirects), qui uti- lisent une estimation de la dynamique du syst`eme, et les algorithmes dits model-free(ou directs), qui n"en utilisent pas. La sup´eriorit´e d"une approche sur l"autre n"est pas claire, et d´epend beaucoup du probl`emeparticulier `a r´e- soudre. Les avantages principaux apport´es par un mod`ele estque l"exp´erience

r´eelle peut ˆetre compl´ement´ee par de l"exp´erience simul´ee ("imaginaire»), et

que connaˆıtre la valeur des ´etats suffit pour trouver le contrˆole optimal. Les inconv´enients les plus importants des algorithmes model-based est qu"ils sont plus complexes (car il faut mettre en oeuvre un m´ecanisme pourestimer le mod`ele), et que l"exp´erience simul´ee produite par le mod`ele peut ne pas ˆetre fid`ele `a la r´ealit´e (ce qui peut induire en erreur le processus d"apprentissage). Bien que la sup´eriorit´e d"une approche sur l"autre ne soit pascompl`e- tement ´evidente, certains r´esultats de la recherche tendent `a indiquer que l"apprentissage par renforcement model-based peut r´esoudre des probl`emes de contrˆole moteur de mani`ere plus efficace. Cela a ´et´e montr´e dans des simu- lations [

5,24] et aussi dans des exp´eriences avec des robots r´eels. Morimoto

et Doya [

42] ont combin´e l"exp´erience simul´ee avec l"exp´erience r´eelle pour

apprendre `a un robot `a se mettre debout avec l"algorithme duQ-learning. Schaal et Atkeson ont aussi utilis´e avec succ`es l"apprentissagepar renforce- ment model-base dans leurs exp´eriences de robot jongleur [ 59].
11

R´ESUM´E (SUMMARY IN FRENCH)

R´eseaux de neurones

Quasiment tous les algorithmes d"apprentissage par renforcement font appel `a l"estimation de"fonctions valeur»qui indiquent `a quel point il est bon d"ˆetre dans un ´etat donn´e (en termes de r´ecompense totale attendue dans le long terme), ou `a quel point il est bon d"effectuer une action donn´ee dans un ´etat donn´e. La fa¸con la plus ´el´ementaire de construire cette fonction valeur consiste `a mettre `a jour une table qui contient une valeur pour chaque ´etat (ou chaque paire ´etat-action), mais cette approche ne peutpas fonctionner pour des probl`emes `a grande ´echelle. Pour pouvoir traiter des tˆaches qui ont un tr`es grand nombre d"´etats, il est n´ecessaire de faire appelaux capacit´es de g´en´eralisation d"approximateurs de fonctions. Les r´eseaux de neurones feedforward sont un cas particulier de tels ap- proximateurs de fonctions, qui peuvent ˆetre utilis´es en combinaison avec l"ap- prentissage par renforcement. Le succ`es le plus spectaculairede cette tech- nique est probablement le joueur de backgammon de Tesauro [

70], qui a r´eussi

`a atteindre le niveau des maˆıtres humains apr`es des mois de jeu contre lui- mˆeme. Dans le jeu de backgammon, le nombre estim´e de positions possibles est de l"ordre de 10

20. Il est ´evident qu"il est impossible de stocker une table

de valeurs sur un tel nombre d"´etats possibles.

R´esum´e et contributions

Le probl`eme

L"objectif des travaux pr´esent´es dans cette th`ese est de trouver des m´e- thodes efficaces pour construire des contrˆoleurs pour des tˆaches de contrˆole moteur simul´ees. Le fait de travailler sur des simulations implique qu"un mo- d`ele exact du syst`eme `a contrˆoler est connu. De fa¸con `a ne pas imposer des contraintes artificielles, on supposera que les algorithmes d"apprentissage ont acc`es `a ce mod`ele. Bien sˆur, cette supposition est une limitation importante, mais elle laisse malgr´e tout de nombreux probl`emes difficiles`a r´esoudre, et les progr`es effectu´es dans ce cadre limit´e peuvent ˆetre transpos´es dans le cas g´en´eral o`u un mod`ele doit ˆetre appris.

L"approche

La technique employ´ee pour aborder ce probl`eme est l"algorithme TD(λ) continu de Doya [

23]. Il s"agit d"une formulation continue du TD(λ) classique

de Sutton [

66] qui est bien adapt´ee aux probl`emes de contrˆole moteur. Son

efficacit´e a ´et´e d´emontr´ee par l"apprentissage du balancement d"une tige en rotation mont´ee sur un chariot mobile [ 24].
12

INTRODUCTION

Dans de nombreux travaux d"apprentissage par renforcement appliqu´e au contrˆole moteur, c"est un approximateur de fonctions lin´eaire qui est uti- lis´e pour approximer la fonction valeur. Cette technique d"approximation a de nombreuses propri´et´es int´eressantes, mais sa capacit´e `atraiter un grand nombre de variables d"´etat ind´ependantes est assez limit´ee. L"originalit´e principale de l"approche suivie dans cette th`ese est que la fonction valeur est estim´ee avec des r´eseaux de neurones feedforward au lieu d"approximateurs de fonction lin´eaires. La non-lin´earit´e de ces r´eseaux de neurones les rend difficiles `a maˆıtriser, mais leurs excellentes capacit´es de g´en´eralisation dans des espaces d"entr´ee en dimension ´elev´ee leur permet de r´esoudre des probl`emes dont la complexit´e est sup´erieure de plusieurs ordres de grandeur `a ce que peut traiter un approximateur de fonctions lin´eaire.

Contributions

Ce travail explore les probl`emes num´eriques qui doivent ˆetre r´esolus de

fa¸con `a am´eliorer l"efficacit´e de l"algorithme TD(λ) continu lorsqu"il est utilis´e

en association avec des r´eseaux de neurones feedforward. Les contributions principales qu"il apporte sont : - Une m´ethode pour traiter les discontinuit´es de la commande. Dans de nombreux probl`emes, la commande est discontinue, ce qui rend diffi- cile l"application de m´ethodes efficaces d"int´egration num´erique. Nous montrons que la commande de Filippov peut ˆetre obtenue en utilisant des informations de second ordre sur la fonction valeur. - Une m´ethode pour traiter les discontinuit´es de l"´etat. Elle est n´ecessaire pour pouvoir appliquer l"algorithme TD(λ) continu `a des probl`emesquotesdbs_dbs12.pdfusesText_18

[PDF] INSTITUT NATIONAL POLYTECHNIQUE DE GRENOBLE

INSTITUT NATIONAL POLYTECHNIQUE DE GRENOBLE

DOCTEUR DE L"INPG

Sp´ecialit´e : Sciences Cognitives

Cognition, Environnement

M. R´emi Coulom

Titre :

Directeur de Th`ese : M. Philippe Jorrand

M. Jean Della Dora Pr´esident

M. Kenji Doya Rapporteur

M. Manuel Samuelides Rapporteur

M. St´ephane Canu Rapporteur

M. Philippe Jorrand Directeur de th`ese

Mme. Mirta B. Gordon Examinateur

Remerciements

Table des mati`eres

R´esum´e (Summary in French)9

Introduction27

Introduction27

I Theory33

1 Dynamic Programming35

1.1 Discrete Problems. . . . . . . . . . . . . . . . . . . . . . . . . 35

1.1.1 Finite Discrete Deterministic Decision Processes. . . . 35

1.1.2 Example. . . . . . . . . . . . . . . . . . . . . . . . . . 37

1.1.3 Value Iteration. . . . . . . . . . . . . . . . . . . . . . 37

1.1.4 Policy Evaluation. . . . . . . . . . . . . . . . . . . . . 41

1.1.5 Policy Iteration. . . . . . . . . . . . . . . . . . . . . . 41

1.2 Continuous Problems. . . . . . . . . . . . . . . . . . . . . . . 42

1.2.1 Problem Definition. . . . . . . . . . . . . . . . . . . . 42

TABLE DES MATI`ERES

1.2.2 Example. . . . . . . . . . . . . . . . . . . . . . . . . . 43

1.2.3 Problem Discretization. . . . . . . . . . . . . . . . . . 45

1.2.4 Pendulum Swing-Up. . . . . . . . . . . . . . . . . . . 50

1.2.5 The Curse of Dimensionality. . . . . . . . . . . . . . . 51

2 Artificial Neural Networks53

2.1 Function Approximators. . . . . . . . . . . . . . . . . . . . . 53

2.1.1 Definition. . . . . . . . . . . . . . . . . . . . . . . . . 53

2.1.2 Generalization. . . . . . . . . . . . . . . . . . . . . . . 54

2.1.3 Learning. . . . . . . . . . . . . . . . . . . . . . . . . . 55

2.2 Gradient Descent. . . . . . . . . . . . . . . . . . . . . . . . . 56

2.2.1 Steepest Descent. . . . . . . . . . . . . . . . . . . . . 56

2.2.2 Efficient Algorithms. . . . . . . . . . . . . . . . . . . 57

2.2.3 Batchvs.Incremental Learning. . . . . . . . . . . . . 59

2.3 Some Approximation Schemes. . . . . . . . . . . . . . . . . . 62

2.3.1 Linear Function Approximators. . . . . . . . . . . . . 62

2.3.2 Feedforward Neural Networks. . . . . . . . . . . . . . 64

3 Continuous Neuro-Dynamic Programming67

3.1 Value Iteration. . . . . . . . . . . . . . . . . . . . . . . . . . 67

3.1.1 Value-Gradient Algorithms. . . . . . . . . . . . . . . . 67

3.1.2 Residual-Gradient Algorithms. . . . . . . . . . . . . . 69

3.1.3 Continuous Residual-Gradient Algorithms. . . . . . . 69

3.2 Temporal Difference Methods. . . . . . . . . . . . . . . . . . 72

3.2.1 Discrete TD(λ). . . . . . . . . . . . . . . . . . . . . . 72

3.2.2 TD(λ) with Function Approximators. . . . . . . . . . 75

3.2.3 Continuous TD(λ). . . . . . . . . . . . . . . . . . . . 76

3.2.4 Back to Grid-Based Estimators. . . . . . . . . . . . . 78

3.3 Summary. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

4 Continuous TD(λ) in Practice83

4.1 Finding the Greedy Control. . . . . . . . . . . . . . . . . . . 83

4.2 Numerical Integration Method. . . . . . . . . . . . . . . . . . 85

4.2.1 Dealing with Discontinuous Control. . . . . . . . . . . 85

4.2.2 Integrating Variables Separately. . . . . . . . . . . . . 88

4.2.3 State Discontinuities. . . . . . . . . . . . . . . . . . . 91

4.2.4 Summary. . . . . . . . . . . . . . . . . . . . . . . . . 92

4.3 Efficient Gradient Descent. . . . . . . . . . . . . . . . . . . . 93

4.3.1 Principle. . . . . . . . . . . . . . . . . . . . . . . . . . 94

4.3.2 Algorithm. . . . . . . . . . . . . . . . . . . . . . . . . 94

4.3.3 Results. . . . . . . . . . . . . . . . . . . . . . . . . . . 95

TABLE DES MATI`ERES

4.3.4 Comparison with Second-Order Methods. . . . . . . . 95

4.3.5 Summary. . . . . . . . . . . . . . . . . . . . . . . . . 96

II Experiments97

5 Classical Problems99

5.1 Pendulum Swing-up. . . . . . . . . . . . . . . . . . . . . . . 99

5.2 Cart-Pole Swing-up. . . . . . . . . . . . . . . . . . . . . . . . 102

5.3 Acrobot. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

5.4 Summary. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

6 Robot Auto Racing Simulator109

6.1 Problem Description. . . . . . . . . . . . . . . . . . . . . . . 109

6.1.1 Model. . . . . . . . . . . . . . . . . . . . . . . . . . . 109