Le calcul de la rétropropagation (règle de la chaîne, dérivées)

Ouvrir le PDF Backpropagation_Decoded.pdf — Lecture directement :

Générés par NotebookLM (Google).

Accueil – Chapitre 5

À la fin de ce chapitre 5, tu sauras : comment relier l'intuition de la rétropropagation (chapitre 4) aux formules de dérivées qui calculent le gradient, ce que signifie vraiment la règle de la chaîne dans un réseau de neurones, et comment on obtient une composante de gradient pour chaque poids et chaque biais.

J'ai compris

Bienvenue dans le chapitre 5 ! Au chapitre 4, tu as vu l'idée de la rétropropagation : les « souhaits » (nudge) remontent de la sortie vers l'entrée pour dire comment changer les poids. Ici, on met les maths derrière cette idée : on voit comment un petit changement sur un poids se traduit, étape par étape, en un petit changement sur le coût. Pour les quatre équations de la rétropropagation sous forme vectorielle (vecteur d’erreur δ, produit de Hadamard), voir le chapitre approfondi 2.

Le calcul de la rétropropagation (en une image)

Poids / biais → Sommes pondérées z → Activations a → Coût C

Commencer par le rappel Voir le gradient en dérivées Aller à la règle de la chaîne

En résumé : le chapitre 5 explique comment la rétropropagation transforme l’erreur en dérivées (gradient) grâce à la règle de la chaîne.

Lexique

Objectif : connaître quelques mots de maths utiles : dérivée, dérivée partielle, règle de la chaîne, somme pondérée z, activation a, gradient.

Dérivée: Nombre qui mesure comment une quantité change quand on la bouge un tout petit peu. Comme si : la pente d’une colline.
Dérivée partielle: Dérivée où l’on bouge un seul paramètre (un poids ou un biais) et on regarde comment le coût change, en gardant les autres fixes.
Somme pondérée z: Le résultat avant la fonction d’activation : z = entrées × poids + biais.
Activation a: La sortie finale du neurone après avoir appliqué la fonction d’activation à z (par exemple ReLU ou sigmoïde).
Règle de la chaîne: Règle de dérivation qui dit : si une chose dépend d’une autre, qui dépend d’une autre, alors la dérivée totale est le produit de plusieurs petites dérivées locales.
Gradient: Grand vecteur qui rassemble toutes les dérivées partielles du coût par rapport à tous les poids et biais.

Rappel : ce qu’on sait déjà

Objectif : relier le chapitre 2 (gradient) et le chapitre 4 (rétropropagation) à ce chapitre 5 (calcul détaillé des dérivées).

Au chapitre 2, tu as vu que le gradient dit dans quel sens modifier chaque poids et biais pour faire baisser la loss. Au chapitre 4, tu as vu que la rétropropagation est l’algorithme qui remonte l’erreur couche par couche pour calculer ce gradient. Ici, on regarde comment ce calcul se traduit en dérivées concrètes (règle de la chaîne, formules par poids et biais).

784entrées

64neurones

10sorties

En résumé : la rétropropagation calcule des dérivées partielles pour tous les poids et biais. Dans ce chapitre, on déplie ce calcul.

Le gradient comme liste de dérivées

Objectif : voir que le gradient n’est rien d’autre qu’une grande liste de dérivées partielles (une par poids et par biais).

On note le coût global par C. Le gradient ∇C est un vecteur qui contient des nombres comme ∂C/∂w₁, ∂C/∂w₂, …, ∂C/∂b₁, etc. Chacun de ces nombres dit : « si je bouge un tout petit peu ce poids (ou ce biais), dans quel sens et de combien le coût va changer ? ».

Voir concrètement : quelques composantes du gradient (∂C/∂w, ∂C/∂b) sous forme de barres.

En résumé : une entrée du gradient = la sensibilité du coût à un poids ou un biais.

Un réseau très simple (3 neurones)

Objectif : comprendre la chaîne de dépendances w → z → a → C sur un mini-réseau avec un neurone par couche.

Pour commencer, on oublie les 10 sorties et les 64 neurones. On regarde un réseau tout simple : un neurone d’entrée, un neurone « caché », un neurone de sortie. Le neurone de sortie a un poids w, un biais b, une somme pondérée z, une activation a, puis on calcule un coût C par rapport à une cible y.

Voir : comment un changement de w modifie z, puis a, puis C.

Entrée a^(L-1) → poids w → z → activation a → coût C

Valeurs (exemple) : a^(L-1) = 0,7, w = 0,5, b = 0,1, y = 1.

z = …, a = …, C = …

La chaîne d’influence : w → z → a → C

Objectif : voir que l’effet d’un poids sur le coût passe par plusieurs étapes, et que la dérivée suit exactement cette chaîne.

Quand on bouge un poids w, on ne touche pas directement le coût C. On modifie d’abord z (la somme pondérée), puis a (l’activation), puis enfin le coût C. La règle de la chaîne dit : la dérivée ∂C/∂w est le produit des petites dérivées sur chaque maillon de la chaîne :

∂C/∂w = (∂z/∂w) × (∂a/∂z) × (∂C/∂a).

Voir la chaîne :

w → z → a → C

En résumé : pour savoir comment w influence C, on multiplie les trois petites dérivées le long du chemin.

La règle de la chaîne en pratique

Objectif : manipuler les trois morceaux de la règle de la chaîne sur des nombres simples.

On note :

∂z/∂w : comment z change quand on bouge w (ça donne a^(L-1)) ;
∂a/∂z : comment l’activation réagit à un changement de z (c’est la pente de la fonction d’activation, notée σ’(z)) ;
∂C/∂a : comment le coût réagit à un changement de la sortie (pour une loss quadratique, c’est 2(a − y)).

Voir le calcul :

∂z/∂w = …, ∂a/∂z = …, ∂C/∂a = …

∂C/∂w = …

Les trois dérivées (version détaillée)

Objectif : écrire explicitement les trois dérivées pour un neurone de sortie.

Pour un neurone de sortie avec une loss quadratique, on obtient :

z^(L) = w^(L) a^(L-1) + b^(L) ⇒ ∂z^(L)/∂w^(L) = a^(L-1) ;
a^(L) = σ(z^(L)) ⇒ ∂a^(L)/∂z^(L) = σ’(z^(L)) ;
C₀ = (a^(L) − y)² ⇒ ∂C₀/∂a^(L) = 2(a^(L) − y).

En les multipliant, on retrouve la dérivée complète :

∂C₀/∂w^(L) = a^(L-1) · σ’(z^(L)) · 2(a^(L) − y).

Voir les trois dérivées :

a^(L-1) = …, σ’(z^(L)) = …, 2(a^(L) − y) = …

Une formule pour un poids

Objectif : voir qu’une seule formule donne la dérivée de C par rapport à un poids donné.

En rassemblant tout, pour un neurone de sortie on a :

Formule : ∂C₀/∂w^(L) = a^(L-1) · σ’(z^(L)) · 2(a^(L) − y).

Cette formule dit : plus le neurone précédent est allumé (a^(L-1) grand), plus ce poids a de l’importance pour corriger l’erreur.

Voir un exemple numérique :

a^(L-1) = …, σ’(z^(L)) = …, a^(L) − y = …

∂C/∂w = …

De tous les exemples au gradient final

Objectif : rappeler que le coût global est une moyenne sur tous les exemples, et que le gradient est la moyenne de toutes les dérivées individuelles.

Le coût global C est la moyenne des coûts C₀, C₁, … pour chaque image. La dérivée ∂C/∂w est donc la moyenne des dérivées ∂Cₖ/∂w sur tous les exemples d’entraînement.

Voir : chaque barre = dérivée pour un exemple ; la moyenne = dérivée finale.

Moyenne = 0

En résumé : chaque image propose un « nudge » pour le poids ; le gradient est la moyenne de tous ces nudge.

Le biais : un cas plus simple

Objectif : comparer la dérivée par rapport au poids et la dérivée par rapport au biais.

Pour le biais, la somme pondérée est z = w a^(L-1) + b. La dérivée ∂z/∂b vaut simplement 1. La dérivée complète ressemble donc beaucoup à celle du poids, mais sans le facteur a^(L-1) :

∂C₀/∂b^(L) = 1 · σ’(z^(L)) · 2(a^(L) − y).

Comparer :

∂C/∂w = a^(L-1) · σ’(z) · 2(a − y)

∂C/∂b = 1 · σ’(z) · 2(a − y)

Remonter vers les couches précédentes

Objectif : comprendre que la rétropropagation applique la même règle de la chaîne pour remonter d’une couche à l’autre.

Une fois qu’on connaît ∂C/∂a^(L) pour la couche de sortie, on peut calculer ∂C/∂a^(L−1), puis les dérivées pour les poids de la couche précédente, et ainsi de suite. C’est exactement la même règle de la chaîne qui se répète, mais appliquée à d’autres chemins dans le réseau.

Voir la propagation :

Sortie → Cachée 2 → Cachée 1 → Entrée

Plusieurs neurones : on additionne les chemins

Objectif : donner l’idée de la généralisation à plusieurs neurones par couche (sans noyer dans les indices).

Dans un vrai réseau, un neurone d’une couche influence le coût à travers plusieurs neurones de la couche suivante. La dérivée ∂C/∂a^(L−1)_k (activation du neurone k de la couche L−1) est donc une somme de contributions, une par neurone de la couche L :

∂C/∂a^(L−1)_k = Σ_j (∂z^(L)_j/∂a^(L−1)_k) · (∂a^(L)_j/∂z^(L)_j) · (∂C/∂a^(L)_j).

Voir : deux neurones qui se connectent à un seul neurone de la couche suivante ; on additionne leurs effets.

Dans les coulisses de l’IA : Pourquoi la rétropropagation est la véritable « magie » des réseaux de neurones

1. Comment une machine « apprend-elle » réellement ?

Pour le grand public, l'intelligence artificielle est souvent perçue comme un oracle numérique, une boîte noire impénétrable dont les décisions émergent par enchantement. Pourtant, la réalité est plus proche d'une horlogerie monumentale que de la sorcellerie. L’IA n’est pas un mystère organique ; c’est un immense système d'engrenages calculables où chaque rouage peut être ajusté avec une précision chirurgicale.

Au cœur de cette mécanique se trouve la rétropropagation (backpropagation). Derrière ce terme technique se cache l'algorithme qui permet de transformer une erreur de calcul en un signal d'apprentissage. En plongeant dans ses mathématiques, on découvre une élégance rare : celle d'un problème d'intelligence abstraite converti en un pur défi d'optimisation.

2. Le pouvoir du « nudge » : la règle de la chaîne

Imaginez une machine de la taille d'un gratte-ciel, composée de millions de petits curseurs. Si la machine produit un résultat erroné, lequel de ces curseurs faut-il tourner, et dans quel sens ? La rétropropagation répond à cette question en mesurant la sensibilité du coût final (C) par rapport à chaque poids (w).

Pour comprendre l'impact d'un « nudge » — une infime poussée de 0,01 sur un poids — nous utilisons la règle de la chaîne. Elle décompose une variation globale complexe en une cascade de trois ratios locaux simples et calculables :

∂C₀/∂w^(L) = ∂z^(L)/∂w^(L) · ∂a^(L)/∂z^(L) · ∂C₀/∂a^(L)

Chaque terme de cette équation révèle une vérité précise :

∂C₀/∂a^(L) = 2(a^(L) − y) : la sensibilité dépend de l'écart entre la prédiction et la cible. Plus l'erreur est grande, plus le signal de correction est fort.
∂a^(L)/∂z^(L) = σ'(z^(L)) : ce terme indique comment la fonction d'activation (comme le sigmoïde) réagit au signal entrant.
∂z^(L)/∂w^(L) = a^(L−1) : la sensibilité du réseau au poids dépend directement de l'activité du neurone précédent.

Cette décomposition est révolutionnaire : elle permet d'attribuer une « responsabilité » précise à chaque connexion individuelle au milieu de millions d'autres. C'est un système de reddition de comptes à une échelle massive.

3. Quand le calcul valide la biologie

L'un des moments les plus saisissants de cet algorithme survient lorsqu'il rejoint l'intuition biologique. En calculant ∂z/∂w, on s'aperçoit que l'influence d'un poids sur le réseau est proportionnelle à l'activation du neurone précédent (a^(L−1)).

En d'autres termes, plus un neurone source est actif, plus le poids qui le lie à la couche suivante a d'influence sur le résultat final. C'est la traduction mathématique exacte de la loi de Hebb en neurosciences : « les neurones qui s'activent ensemble renforcent leurs liens ».

L'idée biologique selon laquelle les neurones qui s'activent ensemble se lient entre eux — fire together, wire together — n'est pas qu'une métaphore ; elle est inscrite organiquement dans le calcul des dérivées de nos réseaux.

4. La rigueur des indices : du simple au complexe

Le passage d'un réseau théorique à un neurone par couche à un réseau profond capable de reconnaître des visages n'est pas un saut conceptuel, mais une simple extension de la « comptabilité » mathématique.

Pour gérer cette densité, nous utilisons des indices : w_jk^(L) représente le poids liant le neurone k de la couche précédente (le passé) au neurone j de la couche actuelle (le futur). La règle de la chaîne reste la même, mais elle doit désormais composer avec la divergence des signaux. Puisqu'un neurone de la couche L−1 influence plusieurs neurones de la couche L, son impact total sur le coût est la somme des influences de chaque chemin qu'il emprunte :

∂C₀/∂a_k^(L−1) = Σ_j ∂z_j^(L)/∂a_k^(L−1) · ∂a_j^(L)/∂z_j^(L) · ∂C₀/∂a_j^(L)

Cette généralisation est d'une beauté désarmante : une fois le cas élémentaire compris, le reste n'est que la répétition structurée de la même règle à travers toute l'architecture du réseau.

5. L'intelligence comme paysage d'optimisation

La rétropropagation nous permet de construire le gradient (∇C), un vecteur qui rassemble toutes ces sensibilités. Ce vecteur est notre boussole : il pointe vers la direction de la montée la plus raide. Pour minimiser l'erreur, nous avançons donc dans la direction opposée (le gradient négatif).

Il est fascinant de constater que des paramètres en apparence secondaires, comme le biais (b), suivent une logique encore plus simple : puisque ∂z/∂b = 1, leur influence sur le coût ne dépend que de l'erreur transmise, sans être pondérée par une activation.

Le génie de cette approche est d'avoir converti la notion abstraite de « compréhension » ou de « vision » en un pur problème de topographie. Reconnaître un chiffre manuscrit revient, pour la machine, à trouver le point le plus bas dans une vallée au sein d'un paysage mathématique à 13 000 dimensions. L'intelligence est ainsi réduite à une pente sur une montagne multidimensionnelle.

6. La beauté dans la simplicité des composants

La véritable magie des réseaux de neurones ne réside pas dans une formule occulte, mais dans la combinaison harmonieuse de briques élémentaires : multiplications de matrices, calcul différentiel de base et la règle de la chaîne.

Si toute cette complexité et cette apparente « intelligence » reposent sur des règles de calcul aussi déterministes et transparentes, une question demeure : où s'arrête le calcul et où commence la véritable compréhension ? Cette frontière, de plus en plus poreuse, nous invite à explorer les fondations mêmes de la cognition, qu'elle soit faite de neurones biologiques ou de silicium.

Pour ceux qui souhaitent voir ces engrenages en mouvement et manipuler le code derrière la théorie, les travaux de Michael Nielsen sur le deep learning ou les visualisations de Chris Olah et de la revue Distill constituent des escales indispensables pour approfondir ce voyage au cœur de la machine.

Générés par NotebookLM (Google).

Quiz : teste ta compréhension

Objectif : répondre à des questions sur le calcul de la rétropropagation (règle de la chaîne, dérivées, gradient) et obtenir une note sur 20.

Choisis un quiz :

Cartes mémoire

Cartes mémoire (flashcards) pour réviser les notions du chapitre 5 (règle de la chaîne, dérivées, gradient, multi-neurones).

Chargement…

Générés par NotebookLM (Google).

Fiche enseignant

Contenu de la fiche pédagogique pour le chapitre 5 (objectifs, durée par section, réponses aux quiz, idées d’activités).

Objectifs pédagogiques (Chapitre 5)

Relier l’intuition de la rétropropagation (chapitre 4) aux dérivées et à la règle de la chaîne.
Comprendre que le gradient est une grande liste de dérivées partielles (une par poids et par biais).
Savoir lire et expliquer la chaîne w → z → a → C et la formule ∂C/∂w = (∂z/∂w)(∂a/∂z)(∂C/∂a).
Comprendre la différence entre dérivée par rapport au poids et dérivée par rapport au biais.
Découvrir l’idée de la généralisation à plusieurs neurones par couche (somme sur les chemins).

Niveau et prérequis

Niveau : fin collège / début lycée (mais avec une version simple accessible dès 5e–4e).
Prérequis : chapitres 1, 2 et 4 (structure du réseau, notion de gradient, intuition de la rétropropagation).
Durée indicative : 45 min à 1 h pour le parcours complet.

Structure du parcours (Chapitre 5)

Section	Durée indicative	Objectif
Accueil	5 min	Présenter le but du chapitre : voir le calcul de la rétropropagation.
Lexique	5 min	Introduire dérivée, dérivée partielle, somme pondérée, règle de la chaîne.
Rappel	5 min	Relier chapitre 2 (gradient) et chapitre 4 (rétropropagation) à ce chapitre.
Gradient en dérivées	5–10 min	Montrer que le gradient est un vecteur de dérivées partielles.
Réseau simple + chaîne	10–15 min	Comprendre w → z → a → C et la règle de la chaîne.
Formules détaillées	10–15 min	Écrire explicitement les trois dérivées et la formule finale pour ∂C/∂w.
Coût global / moyenne	5–10 min	Rappeler la moyenne sur tous les exemples.
Biais / couches précédentes	10 min	Comparer poids / biais ; voir la propagation vers les couches précédentes.
Multi-neurones / Coulisses	10 min	Idée de la somme sur les chemins + lecture du texte « Coulisses ».
Quiz / Cartes	10 min	Vérifier la compréhension et ancrer le vocabulaire.

Réponses possibles aux quiz (Chapitre 5)

La règle de la chaîne relie quoi à quoi ? → Elle relie le changement d’un paramètre (poids, biais) au changement du coût en multipliant les petites dérivées locales.
Que représente ∂C/∂w ? → La sensibilité du coût à un petit changement du poids w.
Pourquoi la dérivée par rapport au biais est-elle plus simple ? → Parce que ∂z/∂b = 1, elle ne dépend pas de l’activation précédente.
Comment passe-t-on de la dérivée pour un exemple à la dérivée globale ? → En faisant la moyenne des dérivées sur tous les exemples d’entraînement.

Idées d’activités

Schéma papier : faire dessiner la chaîne w → z → a → C et écrire en dessous les trois dérivées.
Mini-exercices : donner des valeurs simples pour a^(L-1), σ’(z), a − y et faire calculer ∂C/∂w.
Discussion : « En quoi cette façon d’apprendre ressemble-t-elle (ou non) à notre façon d’apprendre ? ».

Technique

Le chapitre 5 n’utilise pas le réseau MNIST en direct (pas d’entraînement). Toutes les animations sont simulées et ne nécessitent que le navigateur.