Ouvrir le PDF Backpropagation_Intuition.pdf — Lecture directement :

Générés par NotebookLM (Google).

Accueil – Chapitre 4

À la fin de ce chapitre 4, tu sauras : ce qu'est vraiment la rétropropagation — l'algorithme qui calcule le gradient pour tous les poids — et comment l'idée « un exemple », les trois leviers (biais, poids, activations) et la propagation en arrière permettent au réseau d'apprendre.

Bienvenue dans le chapitre 4 ! Au chapitre 1, tu as vu que l'erreur remonte pour corriger les poids (rétropropagation). Au chapitre 2, tu as vu que le gradient dit comment modifier les 13 002 paramètres. Ici on voit comment la rétropropagation calcule ce gradient : en partant d'un seul exemple (une image), en utilisant trois leviers (biais, poids, activations), et en propageant les « souhaits » de modification de la sortie vers l'entrée. Les formules exactes (règle de la chaîne, dérivées) sont détaillées au chapitre 5.

La rétropropagation en une image

Sortie (erreur) Souhaits sur la couche précédente Modifications des poids et biais

En résumé : La rétropropagation est l'algorithme qui calcule le gradient. On peut la comprendre avec un exemple, trois leviers, et la propagation des souhaits en arrière.

Lexique

Objectif : Connaître les mots du chapitre 4 (rétropropagation, gradient, nudge, sensibilité, propagation en arrière, moyenne des exemples, mini-lot).

Rétropropagation
L'algorithme qui calcule le gradient (les modifications à apporter à chaque poids et biais) en faisant « remonter » l'erreur ou les « souhaits » de la sortie vers les couches d'entrée.
Gradient
Le vecteur des 13 002 composantes qui indique, pour chaque poids et biais, dans quel sens et avec quelle force modifier pour faire baisser la loss le plus efficacement.
Nudge
Un petit « coup de pouce » : la modification souhaitée pour un neurone ou un poids (ex. augmenter un peu le biais du neurone 2).
Sensibilité
À quel point la loss (ou une sortie) réagit à un changement de poids ou de biais ; le gradient encode cette sensibilité.
Propagation en arrière
Le fait que les souhaits de modification remontent de la couche de sortie vers les couches précédentes, puis vers les poids et biais.
Moyenne des exemples
Chaque exemple d'entraînement donne une liste de modifications souhaitées ; on fait la moyenne de toutes ces listes pour obtenir la mise à jour réelle.
Mini-lot (minibatch)
Un petit groupe d'exemples (ex. 100) pris au hasard ; on calcule le gradient sur ce groupe pour faire un pas plus rapide qu'avec tout le jeu.

Rappel : le gradient et qui le calcule

Objectif : Se rappeler que le gradient est un vecteur à 13 002 composantes et que la rétropropagation est l'algorithme qui le calcule.

Au chapitre 2, tu as vu le gradient : un vecteur avec une composante par poids et par biais (environ 13 002), qui indique dans quel sens modifier chaque paramètre pour faire baisser la loss. On peut aussi le voir comme une carte de sensibilité : plus une composante est grande (en valeur absolue), plus le coût est sensible à ce poids ou ce biais. Ici on voit qui calcule ce gradient : la rétropropagation, l'algorithme qui fait « remonter » l'information de la sortie vers les couches pour obtenir les 13 002 modifications en une seule passe. Le calcul détaillé (dérivées, règle de la chaîne) est au chapitre 5.

Qui calcule le gradient pour tous les poids ?

En résumé : Gradient = vecteur des 13 002 réglages. Rétropropagation = algorithme qui calcule ce vecteur en faisant remonter l'information de la sortie vers l'entrée.

Un seul exemple (image d'un 2)

Objectif : Comprendre que pour une image (ex. un 2), on veut pousser le neurone « 2 » vers le haut et les autres vers le bas ; les nudge sont proportionnels à l'erreur.

Prenons une seule image, par exemple un « 2 ». Le réseau donne 10 sorties (une par chiffre). Si le réseau n'est pas encore bien entraîné, ces sorties sont mauvaises. On veut que la sortie du neurone « 2 » soit plus grande (proche de 1) et que les autres soient plus petites (proche de 0). Les « nudge » (petites modifications souhaitées) sont proportionnels à l'erreur : plus une sortie est loin de ce qu'on voudrait, plus on veut la modifier fort.

Voir concrètement : image d'un chiffre, et les 10 sorties (obtenues vs cibles). On veut pousser la barre du bon chiffre vers le haut, les autres vers le bas.

Chiffre vu : 2

Sorties obtenues
Cibles (voulu)

En résumé : Pour un exemple, on veut que le bon neurone monte et les autres descendent. C'est la base de ce que la rétropropagation va traduire en modifications des poids et biais.

Trois façons de changer une sortie

Objectif : Comprendre les trois leviers pour modifier l'activation d'un neurone de sortie : le biais, les poids, et les activations de la couche précédente (qu'on ne peut pas toucher directement).

Pour faire bouger l'activation d'un neurone de sortie, il y a trois leviers : (1) le biais de ce neurone — on peut l'augmenter ou le diminuer ; (2) les poids des connexions qui arrivent à ce neurone — on peut les modifier ; (3) les activations de la couche précédente — idéalement on voudrait les changer, mais on n'a pas le droit de les toucher directement (elles viennent du calcul précédent). Du coup, on note des « souhaits » sur cette couche et on les propage en arrière pour modifier les poids et biais qui les déterminent.

Voir les 3 leviers :

1. Biais — on l'augmente ou on le diminue pour ce neurone.
2. Poids — on modifie les connexions qui arrivent à ce neurone.
3. Activations — on ne peut pas les toucher ; on note des souhaits et on propage en arrière.

En résumé : Biais, poids, activations. Les activations on ne les touche pas directement ; on propage des souhaits en arrière.

Modifier les biais

Objectif : Comprendre que pour le neurone du bon chiffre on augmente le biais, et pour les autres on le diminue.

Pour l'image d'un « 2 », on veut que le neurone de sortie « 2 » soit plus actif. La façon la plus simple : augmenter son biais. Pour les neuf autres neurones (0, 1, 3… 9), on veut qu'ils soient moins actifs : on diminue leurs biais. La rétropropagation calcule exactement de combien augmenter ou diminuer chaque biais (en fonction de l'erreur).

Voir : pour une image de « 2 », on veut augmenter le biais du neurone 2 (↑) et diminuer ceux des autres (↓).

Pour le neurone du bon chiffre, on … le biais.

En résumé : Bon neurone → augmenter le biais. Autres neurones → diminuer le biais.

Modifier les poids

Objectif : Comprendre que l'effet d'un poids dépend de l'activation qu'il multiplie (grosse activation × poids = gros effet).

Chaque neurone de sortie reçoit une somme : (activation₁ × poids₁) + (activation₂ × poids₂) + … + biais. Donc pour modifier la sortie, on peut aussi modifier les poids. L'effet d'un poids dépend de l'activation qu'il multiplie : si un neurone de la couche précédente est très actif (grande valeur), modifier le poids de la connexion qui en vient a un gros effet. Les neurones qui « s'activent ensemble » contribuent ensemble ; la rétropropagation renforce les connexions utiles et affaiblit les autres.

Voir : une connexion a un effet = activation × poids. Plus l'activation est grande, plus modifier le poids a d'effet.

a₀ a₁ a₂
Neurone sortie

activation × poids = contribution

En résumé : Modifier un poids a un effet proportionnel à l'activation du neurone d'avant. La rétropropagation calcule ces modifications.

Propager les souhaits en arrière

Objectif : Comprendre que les souhaits de chaque neurone de sortie sont additionnés pour la couche précédente, puis on répète le même raisonnement vers l'entrée.

On ne peut pas toucher directement les activations de la couche précédente. Mais chaque neurone de sortie a des « souhaits » sur cette couche : « si ce neurone-là était plus actif (ou moins), ma sortie serait meilleure. » Ces souhaits sont proportionnels aux poids des connexions. On additionne tous les souhaits venant des 10 neurones de sortie pour obtenir, pour chaque neurone de la couche précédente, un nudge global. Puis on répète le même raisonnement : cette couche a des souhaits sur la couche d'avant, etc. C'est la propagation en arrière.

Voir : les souhaits remontent de la sortie vers l'entrée (étape par étape).

1 Sortie (erreur)
2 Couche 64
3 Couche 64
4 Entrée / Poids modifiés

Les souhaits de modification remontent de la sortie vers l'entrée. Vrai ou faux ?

En résumé : Souhaits de la sortie → additionnés sur la couche précédente → on répète vers l'entrée. C'est la rétropropagation.

Tous les exemples : faire la moyenne

Objectif : Comprendre que chaque exemple d'entraînement donne une liste de modifications souhaitées et qu'on fait la moyenne pour obtenir la mise à jour réelle.

Tout ce qu'on a vu (un exemple, biais, poids, propagation) ne concerne qu'une seule image. En pratique, le réseau est entraîné sur des milliers d'images. Chaque image donne sa propre liste de « nudge » souhaités pour chaque poids et biais. On ne peut pas satisfaire tout le monde en même temps : une image de « 2 » veut peut-être augmenter un certain poids, une image de « 7 » veut le diminuer. La solution : on fait la moyenne de toutes ces listes — comme au chapitre 2 pour le coût moyen, mais ici ce sont des listes de modifications, pas des scores d'erreur. Cette moyenne (à un facteur près) est le gradient négatif qu'on utilise pour un pas de descente de gradient.

Voir : chaque barre = le « nudge » moyen souhaité par un exemple (simulé). La moyenne = mise à jour finale.

Moyenne = 0 (mise à jour finale pour ce paramètre)

Sur tous les exemples, on fait … des modifications souhaitées.

En résumé : Chaque exemple → une liste de nudge. On fait la moyenne → c'est la mise à jour utilisée pour un pas de descente de gradient.

En pratique : les mini-lots

Objectif : Comprendre qu'en pratique on utilise des mini-lots (ex. 100 exemples) pour calculer une approximation du gradient et faire des pas plus rapides.

Calculer le gradient sur toutes les images d'entraînement à chaque pas serait très lent. En pratique, on utilise des mini-lots : on prend un petit groupe d'exemples (par ex. 100) au hasard, on calcule le gradient sur ce groupe (c'est une approximation du vrai gradient), et on fait un pas. On répète avec d'autres mini-lots. C'est la descente de gradient stochastique (SGD). Chaque pas est un peu moins précis mais beaucoup plus rapide.

Voir : tous les exemples (60 000) vs un mini-lot (100). Un pas avec le mini-lot = plus rapide.

Tous les exemples

60 000 images → gradient exact → 1 pas (lent)

Mini-lot (100)

100 images → gradient approximatif → 1 pas (rapide)

En résumé : Mini-lot = petit groupe d'exemples. Gradient approximatif mais pas rapide. C'est ce qu'on fait en pratique.

En pratique

Objectif : Savoir où voir la rétropropagation en action (entraînement du chapitre 1).

Voir en pratique : Va dans la section Entraînement du chapitre 1. À chaque pas d'entraînement, le réseau fait une passe avant (prédiction), calcule la loss, puis la rétropropagation calcule le gradient, et la descente de gradient met à jour les poids. La courbe du score d'erreur (loss) qui baisse, c'est la rétropropagation + descente de gradient en action.

En résumé : Entraînement (chapitre 1) = à chaque pas : passe avant → loss → rétropropagation (gradient) → mise à jour des poids.

Dans les coulisses de l'IA : Ce que la « Rétropropagation » fait réellement dans le cerveau des machines

1. Introduction : Le mystère de l'apprentissage machine

Comment un amas de calculs mathématiques parvient-il à « voir » ? Imaginez un réseau de neurones face à l'image d'un chiffre « 2 » écrit à la main. Au départ, ses prédictions sont totalement aléatoires, un simple bruit numérique sans sens. Pourtant, après quelques cycles d'entraînement, il identifie ce « 2 » avec une précision déconcertante.

Ce passage du chaos à la reconnaissance n'est pas une illumination soudaine. Il repose sur un moteur essentiel : la rétropropagation (ou backpropagation). Souvent perçue comme une boîte noire d'équations intimidantes, la rétropropagation est en réalité un mécanisme élégant et intuitif qui permet à la machine de tirer des leçons de ses erreurs. Déconstruisons ensemble ce qui se passe réellement sous le capot pour comprendre comment une machine « apprend ».

2. Le gradient : plus qu'un vecteur, une carte de sensibilité

Pour comprendre l'apprentissage, il faut d'abord définir ce que le réseau cherche à réduire : le coût. Le coût est la mesure mathématique de l'erreur du réseau pour un exemple donné. On le calcule en faisant la somme des carrés des différences entre ce que le réseau a prédit et ce qu'il aurait dû prédire. C'est, en quelque sorte, la « distance » qui sépare la machine de la vérité.

Dans un réseau typique (comme celui que nous étudions, doté d'environ 13 002 paramètres), la rétropropagation est l'algorithme qui permet de calculer le gradient négatif de ce coût. Plutôt que d'essayer d'imaginer un espace à 13 002 dimensions, considérez le gradient comme une carte de sensibilité.

Chaque composante de ce vecteur massif nous indique à quel point la fonction de coût est sensible à un poids ou un biais spécifique. Par exemple, si l'entrée du vecteur de gradient associée à un poids « A » est 32 fois plus grande que celle associée à un poids « B », cela signifie qu'un léger ajustement du poids « A » réduira l'erreur 32 fois plus efficacement que le même ajustement sur « B ». L'algorithme identifie ainsi où il obtient le « meilleur rapport qualité-prix » pour chaque micro-correction, garantissant que chaque pas nous rapproche efficacement du minimum de l'erreur.

3. L'intuition hebbienne : quand les neurones se lient

Le réseau ajuste ses poids en observant la « luminosité » (l'activation) des neurones. Pour que le neurone de sortie correspondant au chiffre « 2 » s'active davantage, le réseau peut agir sur trois leviers : modifier son biais, ajuster les poids des connexions, ou influencer les activations de la couche précédente.

C'est ici que l'ajustement des poids devient fascinant. L'impact d'une connexion dépend de la force du signal qui la traverse. Les connexions liées aux neurones les plus « lumineux » de la couche précédente sont celles qui ont le plus de poids dans le calcul final.

« Les neurones qui s'activent ensemble se lient ensemble » (neurons that fire together wire together).

Cette célèbre théorie de Hebb, pilier des neurosciences, trouve un écho direct dans l'IA. Pour améliorer la reconnaissance d'un « 2 », le réseau renforce prioritairement les liens entre les neurones déjà actifs et ceux qu'il souhaite voir s'allumer. Il est toutefois crucial de noter une nuance : contrairement à un cerveau humain, la machine ne « pense » pas au chiffre 2. Elle ne fait que suivre aveuglément des étiquettes de données (labels) qui lui dictent mathématiquement ce qu'elle devrait activer. Ce n'est pas de la pensée, c'est de l'optimisation sous contrainte, mais le miroir avec la biologie reste saisissant.

4. La propagation inverse : un jeu de réclamations récursif

La rétropropagation mérite son nom lorsqu'elle commence à remonter le courant, de la sortie vers l'entrée. Pour qu'un neurone de sortie se rapproche du résultat souhaité, il émet une liste de « vœux » de changements vers la couche précédente.

C'est là que le processus devient complexe : chaque neurone de la couche de sortie a ses propres exigences, souvent contradictoires. Le neurone « 2 » veut que certaines activations précédentes augmentent, tandis que le neurone « 8 » (qui ne devrait pas s'allumer) demande à ce qu'elles diminuent. Le réseau résout ce conflit en additionnant tous ces désirs, pondérés par l'importance de chaque neurone et l'ampleur de son erreur.

Le génie de l'algorithme réside dans son caractère récursif. Une fois que nous avons établi cette liste de changements souhaités pour la deuxième couche en partant de la fin, ces souhaits sont traités exactement comme s'ils étaient les objectifs d'une nouvelle couche de sortie. On applique alors la même logique pour ajuster les poids et les biais de la couche encore précédente, et ainsi de suite jusqu'à remonter au tout premier neurone d'entrée. C'est une cascade de réclamations qui se propage à l'envers.

5. La descente de gradient stochastique : l'art de l'ivrogne efficace

En théorie, pour effectuer un seul pas « parfait » vers la solution, il faudrait calculer la moyenne des ajustements souhaités par les dizaines de milliers d'images de la base de données. Pour un ordinateur, ce calcul est d'une lenteur décourageante.

La solution pratique est la descente de gradient stochastique. Au lieu de tout traiter d'un coup, on divise les données en mini-lots (par exemple, 100 images mélangées aléatoirement).

L'homme calculateur : prend des décisions lentes, pesées et extrêmement précises pour descendre une colline.
L'homme ivre : descend la colline à pas rapides, un peu désordonnés et approximatifs, mais avance constamment.

Paradoxalement, « l'homme ivre » (le mini-lot) arrive en bas bien plus vite. Même si chaque étape n'est qu'une approximation du gradient réel, la multiplication de ces petits pas rapides permet au réseau de converger vers une solution performante en une fraction du temps. Chaque image finit par avoir son mot à dire, mais le processus est dynamisé par cette approximation « stochastique » (aléatoire).

6. Conclusion : vers une compréhension plus profonde

Derrière les rideaux de l'intelligence artificielle ne se cache pas une magie impénétrable, mais une structure de rétroaction d'une élégance rare. La rétropropagation est une conversation continue entre les couches du réseau, où chaque paramètre négocie sa responsabilité dans l'erreur globale pour mieux s'ajuster.

Maintenant que nous avons déconstruit la manière dont chaque micro-ajustement permet à une machine d'apprendre par l'exemple, une question s'impose : si l'intelligence peut être synthétisée par une simple somme de corrections basées sur la sensibilité et la répétition, cela change-t-il votre perception de votre propre apprentissage ? Le calcul formel n'est que la traduction rigoureuse de cette intuition : une écoute attentive des erreurs passées pour sculpter une meilleure réponse à l'avenir.

Générés par NotebookLM (Google).

Quiz : teste ta compréhension

Objectif : Répondre à des questions sur le chapitre 4 (rétropropagation, biais, poids, propagation, moyenne) et obtenir une note sur 20.

Choisis un quiz :

Cartes mémoire

Cartes mémoire (flashcards) pour réviser les notions du chapitre 4.

Chargement…

Générés par NotebookLM (Google).

Fiche enseignant

Contenu de la fiche pédagogique pour le chapitre 4 (objectifs, durée par section, réponses aux quiz, idées d'activités).