Chapitre approfondi 2 – Rétropropagation

Accueil – Chapitre approfondi 2

À la fin de ce chapitre, tu sauras : ce qu’est le gradient de la fonction de coût, ce que représente le vecteur d’erreur δ dans chaque couche, comment fonctionne l’algorithme de rétropropagation (backpropagation) et pourquoi il est beaucoup plus rapide qu’une méthode naïve.

J'ai compris

Dans le chapitre approfondi 1, tu as vu comment un réseau de neurones calcule une réponse à partir d’entrées, comment on mesure l’erreur avec une fonction de coût et comment la descente de gradient ajuste les poids. Les chapitres 4 et 5 en ont déjà parlé (intuition et calcul avec la règle de la chaîne). Ici, on va plus loin : on donne les quatre équations de base et l’algorithme complet de la rétropropagation, et pourquoi il est beaucoup plus rapide qu’une méthode naïve.

Parcours du chapitre (en une image)

Rappel réseau → Coût & gradient → Hadamard → Équations δ → Algorithme complet

Aller directement aux équations Revoir le réseau et le coût Retour chapitre approfondi 1

En résumé : ce chapitre explique, pas à pas, comment l’erreur en sortie se propage en arrière dans toutes les couches et comment cela donne le gradient exact pour tous les poids et biais.

Lexique

Objectif : connaître les nouveaux mots du chapitre (gradient, dérivée partielle, produit de Hadamard, vecteur d’erreur δ, rétropropagation, différence finie, etc.).

Gradient ∇C: Vecteur qui regroupe toutes les dérivées partielles de la fonction de coût C par rapport aux paramètres (poids, biais). Il indique dans quelle direction C augmente le plus vite ; pour l’apprentissage, on va dans la direction opposée.
Dérivée partielle: Variation d’une fonction quand on bouge un seul paramètre (par exemple un poids w_jk) et qu’on garde les autres fixés.
Produit de Hadamard s ⊙ t: Produit composante par composante de deux vecteurs de même taille : (s ⊙ t)_j = s_j·t_j. À ne pas confondre avec une multiplication matrice×vecteur.
Erreur δ^l: Vecteur qui mesure « combien » chaque neurone de la couche l contribue encore à l’erreur totale. Plus |δ| est grand, plus il y a de chose à corriger.
Rétropropagation (backpropagation): Algorithme qui calcule efficacement le gradient de la fonction de coût en partant de l’erreur en sortie et en la propageant en arrière dans le réseau.
Différence finie: Méthode naïve pour approximer une dérivée : on calcule C(w+ε) et C(w), puis on regarde le quotient (C(w+ε) − C(w))/ε. Correct mais très lent pour un grand réseau.

Rappel : réseau feedforward et coût

Objectif : se rappeler comment on calcule les activations a^l couche par couche et comment on définit le coût C pour un exemple.

On considère un réseau feedforward (sans boucle) avec une fonction d’activation sigmoïde σ. Pour chaque couche l (sauf l’entrée), on calcule :

z^l = w^l · a^l-1 + b^l puis a^l = σ(z^l).

Pour un exemple (x, y), on obtient en sortie a^L (prédiction du réseau) et on mesure l’erreur avec la fonction de coût quadratique :

C = (1/2) · ‖y − a^L‖².

Mini-réseau 2 → 2 → 1 : ajuste les entrées et regarde comment la sortie et le coût changent.

Entrées : x₁ = x₂ =

Cible y =

Sortie a^L = 0.5 Coût C = 0.00

En résumé : un réseau calcule successivement z^l, a^l, puis on mesure l’erreur entre y et a^L avec une fonction de coût comme C = (1/2)‖y − a^L‖².

Hypothèses sur la fonction de coût

Objectif : comprendre pourquoi on peut calculer le gradient exemple par exemple puis moyenner.

Pour utiliser la rétropropagation, on fait deux hypothèses simples :

1. Coût moyen : le coût total C est une moyenne des coûts C_x pour chaque exemple x : C = (1/n) Σ_x C_x.
2. Coût par exemple : pour un exemple x, le coût C_x ne dépend que des sorties du réseau a^L(x) et de la cible y(x) (qui est fixée).

On peut donc calculer le gradient pour un seul exemple (ou un mini-batch) et ensuite faire la moyenne sur plusieurs exemples.

Coût moyen sur quelques exemples : déplace les valeurs et regarde la moyenne.

C_x1 = C_x2 = C_x3 =

Nombre d'exemples n =

C = (1/n) Σ C_x ≈ 0.00

En résumé : le coût total est une moyenne de coûts individuels, et chaque coût individuel dépend seulement des sorties du réseau. Cela permet de calculer le gradient sur un exemple, puis de moyenner.

Le produit de Hadamard

Objectif : distinguer clairement le produit de Hadamard (⊙) du produit matrice×vecteur.

Le produit de Hadamard de deux vecteurs s et t de même taille est le vecteur s ⊙ t obtenu en multipliant composante par composante :

(s ⊙ t)_j = s_j · t_j.

Essaie le produit de Hadamard :

s = [, , ]

t = [, , ]

s ⊙ t = [3, 8, 15]

En résumé : s ⊙ t multiplie les composantes deux à deux. On l’utilise dans les équations de rétropropagation pour appliquer σ′(z) à chaque neurone séparément.

Les équations de la rétropropagation

Objectif : comprendre les quatre équations qui relient les erreurs δ et le gradient des poids et biais.

On note δ^l le vecteur d’erreur pour la couche l. Intuitivement, δ^l_j mesure à quel point le neurone j de la couche l doit encore être corrigé.

Erreur en sortie : δ^L = (a^L − y) ⊙ σ′(z^L)
Propagation vers l’arrière : δ^l = ((w^l+1)^T δ^l+1) ⊙ σ′(z^l)
Biais : ∂C/∂b^l_j = δ^l_j
Poids : ∂C/∂w^l_jk = a^l−1_k · δ^l_j

Erreur en sortie : δ^L = (a^L − y) · σ′(z^L).

a^L = y = z^L =

σ′(z^L) = 0.00 δ^L = 0.00

Propagation en arrière : calcule δ² à partir de δ³ et des poids.

δ³ = [] w³ = [w₁, w₂] = [, ]

z² = [z₁, z₂] = [, ]

δ² = [0.00, 0.00]

En résumé : une fois que l’on connaît δ en sortie, ces quatre équations permettent de calculer tous les δ dans le réseau et ensuite toutes les dérivées par rapport aux poids et aux biais.

L’algorithme de rétropropagation

Objectif : voir l’algorithme complet étape par étape, pour un exemple puis pour un mini-batch.

Entrée : on fixe x et on met a¹ = x.
Feedforward : pour chaque couche l, on calcule z^l puis a^l = σ(z^l).
Erreur en sortie : on calcule δ^L avec la formule de la couche de sortie.
Retour en arrière : pour l = L−1, …, 2 on calcule δ^l avec la formule de propagation.
Gradient : pour chaque couche l, on obtient ∂C/∂b^l et ∂C/∂w^l à partir de δ^l et a^l−1.

Pour un mini-batch de plusieurs exemples, on répète ces étapes pour chaque exemple puis on moyenne les gradients avant de mettre à jour les poids et biais.

Gradient d’un poids unique : ∂C/∂w = a_in · δ_out.

a_in = δ_out =

∂C/∂w = 0.18

En résumé : la rétropropagation applique toujours le même schéma : feedforward pour obtenir les activations, puis propagation de l’erreur vers l’arrière, puis calcul des dérivées de C par rapport à tous les poids et biais.

Pourquoi la rétropropagation est rapide ?

Objectif : comparer le coût en calculs d’une méthode naïve par différences finies et de la rétropropagation.

Une idée naïve pour obtenir ∂C/∂w_j est de calculer :

∂C/∂w_j ≈ (C(w + εe_j) − C(w)) / ε,

c’est-à-dire de refaire presque tout le calcul du réseau pour chaque poids. Si on a 1 000 000 de poids, il faut ~1 000 001 passages, ce qui est énorme.

Méthode naïve vs rétropropagation :

Nombre de poids (approx.) :

Passages réseau méthode naïve ≈ 1000001

Passages réseau rétropropagation ≈ 2 (1 aller + 1 retour)

En résumé : la rétropropagation partage les calculs entre toutes les dérivées : au lieu d’un passage par poids, on obtient tout le gradient avec seulement un passage avant et un passage arrière.

Exercices

Objectif : s’entraîner à manipuler δ, le gradient et les idées de rétropropagation.

Exercice 1 – Gradient d’un poids

Énoncé : dans un neurone simple, on a sortie a = σ(wx + b), coût C = (1/2)(a − y)². Montrer que ∂C/∂w est proportionnel à x · δ, où δ est l’erreur en sortie.

x = δ =

x · δ = 0.20

Exercice 2 – δ en couche cachée

Énoncé : pour une couche cachée de deux neurones, expliquer pourquoi δ²_j dépend d’un mélange des erreurs de la couche suivante pondérées par les poids, puis de σ′(z²_j).

Calcule δ²_j étape par étape :

δ³₁ = δ³₂ =

w₁ = w₂ =

z²_j =

(w₁·δ³₁ + w₂·δ³₂) = 0.00

σ′(z²_j) = 0.00 δ²_j = 0.00

Exercice 3 – Méthode naïve vs rétropropagation

Énoncé : pour un réseau avec 10 000 poids, combien de passages complets du réseau faut-il :

avec la méthode naïve (différences finies),
avec la rétropropagation ?

Utilise le widget de la section Comparaison naïve pour vérifier tes réponses.

Refais le calcul pour 10 000 poids :

Nombre de poids ≈

Passages réseau méthode naïve ≈ 10001

Passages réseau rétropropagation ≈ 2

En résumé : ces exercices t’aident à relier les formules (∂C/∂w, δ^l) à des raisonnements concrets.

Quiz

Objectif : vérifier que tu as compris le rôle de δ, du gradient et de la rétropropagation.

Choisis un quiz :

Fiche enseignant

Fiche pédagogique pour le chapitre approfondi 2 : objectifs, niveau, durée, pistes de correction des exercices et idées de discussion autour de la rétropropagation.

🧠 Comment fonctionnent les IA ?