Il est indispensable de comprendre les fondements de cet algorithme avant d'étudier les réseaux de neurones à proprement parlé. La descente de gradient est un algorithme d'optimisation permettant de trouver le minimum d'une fonction. Considérons la fonction dérivable f ( x) que l'on souhaite minimier.
La majorité des réseaux de neurones artificiels s'appuie sur l'algoritme de descente de gradient. Il est indispensable de comprendre les fondements de cet algorithme avant d'étudier les réseaux de neurones à proprement parlé. La descente de gradient est un algorithme d'optimisation permettant de trouver le minimum d'une fonction.
Il faut pouvoir calculer le gradient de la fonction de perte L par rapport aux paramètres, quelle que soit la couche. Pour cela, nous allons commencer par calculer le gradient des paramètres de la dernière couche, puis propager le gradient vers les entrées de la dernière couche (ce qui correspond au gradient de la sortie de la couche précédente).
La généralisation multidimensionelle de l'algorithme de descente de gradient est donnée par l'équation suivante: ( X {n+1} ) est le point suivant dans R n ( X {n} ) est le point actuel dans R n α est le pas de l'algorithme ∇ f ( X n) est le gradient de la fonction f localement exprimé au point X n
Considérons la fonction dérivable f(x)que l'on souhaite minimier. L'algorithmede descente de gradient démarre à une coordonnée initiale arbitraire et convergevers le minimum de façon itérative, comme illustré ci-dessous: Nommons x0 le point de départ de l'algorithme. Pour déterminer le point suivant x1, ladescente de gradient calcule la dérivée f′(
Le pas de l'algorithne αest un paramètre à régler. Il représente la taille despas entre deux itérations. Le dilemne caché derrière ce paramètre est qu'il permetune convergence rapide pour un pas élevé, mais de petites valeurs assurent plusde stabilité à l'algorithme. Sur l'illustration ci-dessous, un pas trop grandempèche l'algorithme de converger
Pour plus de clareté, l'algorithme a été présenté sur une fonction unidimensionelle ( f:R↦R ).Les principes exposés précédemment peuvent être étendus à des fonctions multidimensionelles( f:Rn↦R ). La dérivée est alors remplacé par le gradient de la fonction. C'est la raison pourlaquelle cet algorithme s'appelle la descente du gradient. La généralis
Lors de l'utilisation de la descente de gradient, il faut considérer le fait quel'algorithme peut converger vers des minimas locaux, comme illustré ci-dessous: Lorsque cet algorithme est utilisé pour l'optimation des paramètres d'un réseauxde neurones, cette limitation peut empécher le réseaux de converger correctement.Heureusement, en pratique nou
Régression non linéaire avec un réseau de neuronesJeux de données pour l'apprentissage profondExemple de descente de gradientQuelle est la popularité des réseaux de neurones dans le temps ? See full list on lucidar.me