Analyser le réseau (poids, neurones en direct, limites)

Ouvrir le PDF Inside_the_Perceptron.pdf — Lecture directement :

Générés par NotebookLM (Google).

Accueil – Chapitre 3

À la fin de ce chapitre 3, tu sauras : ce que fait vraiment un réseau entraîné, à quoi ressemblent les poids des couches, pourquoi le réseau peut se tromper sur du bruit ou des images décalées, et comment observer les neurones en direct pendant que tu dessines.

J'ai compris

Bienvenue dans le chapitre 3 ! Au chapitre 1, tu as vu la structure du réseau. Au chapitre 2, tu as vu comment il apprend (loss, descente de gradient). Ici on analyse le résultat : on regarde ce que le réseau fait vraiment une fois entraîné, ce que « voient » les couches, et ses limites. On ne revient pas sur la rétropropagation ; tu en reparleras plus en détail au chapitre 4 et au chapitre 5.

Analyser le réseau (en une image)

Réseau entraîné → Observer les couches → Poids, bruit, limites

Commencer par le rappel Aller à la précision Visualisation des poids Dessiner avec neurones en direct Chapitre 2

En résumé : Ce chapitre permet d'analyser le réseau entraîné : précision, ce que font les couches, visualisation des poids, dessin avec neurones en direct, bruit et limites.

Lexique

Objectif : Connaître les mots du chapitre 3 (précision, couche cachée, activation, poids, minimum local, bruit, généralisation).

Précision: Le pourcentage de bonnes réponses du réseau sur des images de test (qu'il n'a pas vues à l'entraînement). Comme si : ta note sur une évaluation.
Couche cachée: Une couche de neurones entre l'entrée (pixels) et la sortie (chiffre 0…9). Notre réseau a deux couches cachées de 64 neurones. Comme si : des étapes intermédiaires de calcul.
Activation: La valeur de sortie d'un neurone après le calcul (entrées × poids + biais puis ReLU). Comme si : l'intensité avec laquelle le neurone « s'allume ».
Poids (d'un neurone): Les 784 nombres qui relient chaque pixel (entrée) à ce neurone. On peut les afficher en grille 28×28 pour voir le « motif » que le neurone regarde. Comme si : l'importance que le neurone donne à chaque pixel.
Minimum local: Un « creux » dans le paysage de l'erreur où le réseau s'est arrêté ; ce n'est pas forcément le meilleur minimum possible. Comme si : une petite cuvette où la balle s'arrête.
Bruit: Des pixels aléatoires sans forme. Le réseau n'a pas appris à dire « je ne sais pas » : il classe quand même. Comme si : une image de neige à la télé.
Généralisation: La capacité du réseau à bien faire sur des images qu'il n'a jamais vues. Notre réseau a été entraîné sur des chiffres centrés ; il généralise mal si l'image est décalée. Comme si : réussir un contrôle sur un exercice jamais vu.

Rappel

Objectif : Se rappeler qu'on a la structure (chapitre 1) et l'apprentissage (chapitre 2) ; ici on regarde le résultat (réseau entraîné).

Comme on l’a vu au chapitre 1 (structure 784 → 64 → 64 → 10) et au chapitre 2 (loss, descente de gradient), le réseau apprend en ajustant ses poids. Maintenant on observe ce que donne un réseau entraîné : sa précision, ce que « voient » les couches, et ses limites.

784entrées (pixels)

64neurones

10sorties (0…9)

En résumé : Réseau = 784 → 64 → 64 → 10. Ici on analyse ce qu'il fait une fois entraîné.

Précision du réseau

Objectif : Comprendre que le réseau atteint environ 96 % de bonnes réponses sur MNIST (jusqu'à ~98 % avec réglages), et que c'est une prouesse sans qu'on lui ait dicté les règles.

Pour toi : Le réseau a bien appris sans qu'on lui dise « un 3 a deux boucles ». Il a trouvé tout seul des combinaisons de pixels qui marchent.

Sur le jeu de test MNIST, notre réseau « vanille » (784 → 64 → 64 → 10) atteint environ 96 % de bonnes réponses. Avec quelques réglages (nombre de neurones, taux d'apprentissage), on peut monter vers 98 %. Les réseaux plus récents peuvent dépasser 99 %. À ce niveau, même un humain peut hésiter sur certaines écritures ambiguës.

Voir concrètement : une précision typique autour de 96 %.

Précision simulée = 96 % (pourcentage de bonnes réponses sur des images de test)

La précision, c'est quoi ?

Le score d'erreur (loss) Le pourcentage de bonnes réponses sur des images de test Le nombre de poids du réseau

En résumé : Le réseau atteint ~96 % de précision sur MNIST sans qu'on lui ait expliqué les règles ; c'est le résultat de l'apprentissage (chapitre 2).

Ce que font les couches

Objectif : Comprendre que l'intuition (2e couche = bords, 3e = formes) ne correspond pas à la réalité : les poids ressemblent à des motifs flous (minimum local).

On pourrait imaginer que la 2e couche détecte des bords et la 3e des formes. En regardant les poids des neurones de la 2e couche (les 784 nombres par neurone, en grille 28×28), on ne voit pas des lignes nettes : on voit des motifs flous, des « taches » (blobby shapes). Le réseau a trouvé un minimum local qui fonctionne sans être « compréhensible » comme nous.

Intuition vs Réalité : à gauche ce qu'on imaginerait (bords), à droite un exemple de poids réel (motif flou).

Les poids de la 2e couche, après entraînement, ressemblent à quoi ?

À des bords nets et des lignes claires À des motifs flous ou des taches (presque aléatoires) À des chiffres 0 à 9

En résumé : Les poids de la 2e couche ne forment pas des bords nets ; le réseau a trouvé un minimum local qui marche sans être « lisible » par nous.

Visualisation des poids

Objectif : Voir la grille 28×28 des poids d'un neurone de la 2e couche (le « motif » qu'il regarde) en choisissant le neurone.

Chaque neurone de la 2e couche a 784 poids (un par pixel). On peut les afficher en grille 28×28 : plus un poids est clair ou foncé, plus ce pixel compte pour ce neurone. En cliquant sur un neurone (ou en le choisissant dans la liste), tu vois le motif qu'il « regarde ».

Choisis un neurone de la 2e couche (0 à 63) pour voir ses 784 poids en grille 28×28.

Neurone :

Charge un réseau (sauvegarde du chapitre 1) pour voir les poids.

En cliquant sur un neurone de la 2e couche, on voit quoi ?

Son numéro La grille de ses 784 poids (le motif qu'il regarde) Sa sortie

En résumé : Chaque neurone a 784 poids = une grille 28×28. En la regardant, on voit le « motif » que le neurone détecte (souvent flou).

Dessiner avec neurones en direct

Objectif : Dessiner un chiffre et voir en temps réel la prédiction du réseau et les activations des neurones (couches 1 et 2, barres de sortie).

Pour toi : Dessine un chiffre : les petites « lumières » des neurones se mettent à jour à chaque trait. Tu vois comment le réseau réagit en direct.

Même démo que le dessin du chapitre 1, mais ici les activations des neurones (couche 1, couche 2, et les 10 barres de sortie) se mettent à jour en direct pendant que tu dessines. Tu peux observer quels neurones s'activent quand tu traces un 3, puis quand tu l'étires vers un 8.

—

Pixels en rouge : ceux qui ont le plus influencé la réponse.

Activations des neurones en temps réel

784 entrées → 64 → 64 → 10 sorties. Les neurones se mettent à jour pendant que tu dessines.

784 entrées (pixels)

Couche 1 (64)

Couche 2 (64)

Sortie (0 à 9)

En résumé : Tu dessines, le réseau prédit, et les neurones (C1, C2, sortie) se mettent à jour en direct.

Bruit aléatoire

Objectif : Voir que le réseau n'a pas d'« incertitude » : une image de bruit (pixels aléatoires) est classée avec une confiance souvent très forte (ex. « 5 »).

Si on envoie au réseau une image de bruit (784 pixels remplis au hasard), il ne dit pas « je ne sais pas ». Il choisit l'une des 10 sorties avec une confiance parfois très élevée. Pour lui, l'univers entier = 10 chiffres ; il n'a pas appris l'incertitude.

Voir concrètement : génère une image de bruit et regarde la prédiction du réseau.

Prédiction : —

Avec une image de bruit (pixels aléatoires), le réseau fait quoi ?

Il refuse de répondre Il hésite (toutes les sorties à 0,1) Il répond avec une confiance souvent forte (ex. « 5 »)

En résumé : Le réseau n'a pas d'option « je ne sais pas » ; il classe tout, même le bruit.

Limites et taille / position

Objectif : Comprendre que le réseau a été entraîné sur des chiffres centrés et de taille fixe ; s'il est décalé ou redimensionné, il se trompe. Il n'a pas de notion de pixels « adjacents ».

Le réseau a vu des chiffres centrés et de taille fixe (28×28). Si tu lui montres un chiffre trop grand, trop petit ou décalé, il se trompe souvent. De plus, il « aplatit » l'image en une liste de 784 nombres : il ne sait pas que le pixel 1 est à côté du pixel 29. Cette limite a motivé les réseaux convolutionnels (CNN), qui tiennent compte du voisinage.

Image centrée vs décalée : le réseau est entraîné sur des images centrées ; une image décalée le perturbe.

Image centrée (entraînement)

Réseau : —

Image décalée (hors entraînement)

Réseau : ? ou erreur

Si on décale l'image d'un chiffre vers le bord, le réseau fait quoi ?

Il s'adapte et reconnaît quand même Il se trompe souvent (il n'a pas appris sur des images décalées) Il affiche une erreur

En résumé : Réseau entraîné sur chiffres centrés, taille fixe. Décalage ou autre taille = confusion. Pas de notion de voisinage → les CNN ont été inventés pour ça.

Défi 3 → 8

Objectif : Dessiner un 3, puis l'étendre pour qu'il devienne un 8, et observer à quel moment la prédiction change et quels neurones (C1, C2) changent.

Défi : Va dans la section Dessiner avec neurones en direct. Dessine un 3, puis étends-le (ajoute une boucle en bas ou prolonge les traits) pour qu'il ressemble à un 8. Observe : à quel moment la prédiction du réseau change ? Quels neurones de la couche 1 ou 2 s'activent ou s'éteignent ? Ce n'est pas parce que le réseau « comprend » la boucle, mais parce que de nouveaux pixels entrent dans la zone de détection des neurones.

En résumé : Défi 3→8 : dessiner, étendre, observer la prédiction et les neurones qui changent.

L'IA est-elle vraiment intelligente ? Ce que nous cachent les entrailles d'un réseau de neurones

Imaginez-vous face à une interface blanche. Vous dessinez un "3" avec votre souris, et instantanément, des milliers de petites lumières s'allument. Dans les couches cachées du système, des neurones s'activent, clignotent et s'organisent jusqu'à ce que le verdict tombe : "3", avec une certitude absolue. Ce spectacle, c'est celui du réseau de neurones MNIST, une architecture classique capable d'identifier des chiffres manuscrits avec une précision de 96 %. Face à une telle prouesse, la tentation est grande de prêter au système une forme de conscience ou de compréhension. Pourtant, si l'on prend le temps d'ouvrir le capot pour observer ce qui se passe réellement dans cette "boîte noire", le mirage de l'intelligence s'évapore pour laisser place à une mécanique bien plus étrange — et bien moins logique — qu'il n'y paraît.

L'échec de notre intuition : les "bordures" n'existent pas

Lorsqu'on imagine le fonctionnement d'une IA visuelle, notre intuition nous dicte une hiérarchie élégante : les premières couches détecteraient des segments, les suivantes des boucles, pour finalement assembler un chiffre. On s'attendrait à voir, dans les entrailles du code, des structures géométriques claires. Et pourtant, la réalité nous contredit. En observant les grilles de poids de la deuxième couche, l'œil humain ne distingue aucune ligne droite ni aucun cercle parfait. À la place, on découvre une constellation de poids sans structure apparente, des "formes de taches" (blobby shapes) qui ressemblent davantage à un nuage de pixels aléatoires qu'à un outil de dessin. Le réseau a simplement trouvé un "minimum local" fonctionnel dans un espace mathématique colossal de 13 002 dimensions. Pour visualiser cela, imaginez une console avec 13 002 curseurs (les poids et les biais) que la machine tourne jusqu'à ce que le résultat colle aux données. Le système n'a pas appris ce qu'est une ligne ; il a trouvé une combinaison statistique de pixels qui "marche" pour la base de données. C'est flagrant lors du défi de la transition : si vous dessinez un "3" et que vous l'étirez lentement pour en faire un "8", vous verrez certains neurones s'activer non pas parce qu'ils comprennent la structure de la boucle, mais parce que de nouveaux pixels entrent dans leur zone de détection floue.

L'IA qui hallucine : quand le bruit devient une certitude

L'un des aspects les plus troublants de cette technologie réside dans son absence totale de doute. Soumettez au réseau une image de pur bruit statique, un gribouillis de pixels gris sans aucun sens. Là où un humain hausserait les épaules, le réseau de neurones va, avec un aplomb désconcertant, classer ce bruit comme étant un "5" avec une confiance absolue. Pourquoi une telle arrogance dans l'absurde ? Parce que pour ce réseau, l'univers entier se résume à une grille de pixels fixes. Il n'a jamais appris l'incertitude ni l'existence du "hors-sujet". Son algorithme est programmé pour projeter n'importe quel signal entrant sur l'une des dix cases de sortie. Il ne sait pas dessiner un chiffre, il ne sait pas ce qu'est un chiffre ; il est une machine à classer mécaniquement du signal, incapable de réaliser qu'on lui présente une aberration.

Une intelligence figée dans l'espace

Le véritable "moment de vérité" survient lorsqu'on décale le chiffre de quelques pixels vers le bord ou qu'on change sa taille. Le réseau, si brillant sur des images centrées, échoue alors lamentablement. Ce paradoxe révèle une faille structurelle majeure : ce système ignore la notion de pixels "adjacents". Mathématiquement, le réseau commence par "aplatir" l'image 2D (28×28 pixels) en une simple liste linéaire de 784 nombres. Dans cette liste, le pixel n°1 n'a aucune relation de proximité avec le pixel n°29, qui se trouve pourtant juste en dessous de lui dans la réalité. Le réseau traite chaque point de la grille de manière isolée. Il est incapable de comprendre qu'un motif reste le même s'il se déplace dans l'espace. C'est cette limite fondamentale qui a rendu nécessaire l'invention des réseaux convolutionnels (CNN), capables, eux, de transférer la connaissance d'un motif d'un coin de l'image à un autre.

Le fossé entre performance et compréhension

Il faut toutefois rendre justice à ce modèle "vanille" des années 80 et 90. Sa précision de 96 % est une prouesse historique. Mais en informatique, les derniers pourcentages sont les plus révélateurs. Les standards modernes atteignent aujourd'hui 99,75 % de réussite. À ce niveau, on peut légitimement se demander si un humain ferait mieux face aux ambiguïtés de l'écriture manuscrite. Cependant, l'écart de performance entre 96 % et 99,75 % n'est pas qu'une question de score. Les 4 % d'erreurs du modèle de base ne sont pas des erreurs "humaines" de lecture ; ce sont des preuves d'une absence totale de vision conceptuelle. Le réseau ne voit pas un "8" comme deux boucles superposées, mais comme une signature statistique de pixels. C'est une calculatrice géante qui simule la vision sans jamais voir.

Vers une véritable vision artificielle

La performance n'est pas l'intelligence. Ce voyage au cœur du réseau nous montre qu'un système peut surpasser l'humain dans une tâche précise tout en étant d'une fragilité conceptuelle absolue. Pour que ce réseau apprenne de ses erreurs, il repose sur la backpropagation (rétropropagation du gradient) : après chaque erreur, l'algorithme calcule comment ajuster chacun des 13 002 « boutons » pour que le résultat suivant soit moins faux (chapitre 2, chapitre 4). C'est ce processus itératif, et non une quelconque étincelle de génie, qui forge cette efficacité apparente. Alors que nous intégrons ces systèmes dans notre quotidien, une question demeure : jusqu'à quel point pouvons-nous accorder notre confiance à des décisions prises par des architectures dont les critères de jugement nous sont, au fond, totalement étrangers ?

Générés par NotebookLM (Google).

Quiz : teste ta compréhension

Objectif : Répondre à des questions sur le chapitre 3 (précision, couches, poids, bruit, limites) et obtenir une note sur 20.

Choisis un quiz :

Cartes mémoire

Cartes mémoire (flashcards) pour réviser les notions du chapitre 3.

Chargement…

Générés par NotebookLM (Google).

Fiche enseignant

Contenu de la fiche pédagogique pour le chapitre 3 (objectifs, durée par section, réponses aux quiz, idées d'activités).

Objectifs pédagogiques (Chapitre 3)

Comprendre ce que fait un réseau entraîné (précision, rôle des couches).
Visualiser les poids d'un neurone (grille 28×28).
Observer les neurones en direct pendant le dessin.
Comprendre le comportement sur le bruit (pas d'incertitude).
Comprendre les limites (centrage, taille, pas de voisinage).
Utiliser le quiz chapitre 3 pour évaluer la compréhension (note sur 20).

Niveau et prérequis

Niveau : fin primaire / collège (6e–3e).
Prérequis : avoir vu les chapitres 1 et 2 (structure, apprentissage).
Durée indicative : 45 min à 1 h pour le parcours complet du chapitre 3.

Structure du parcours (Chapitre 3)

Section	Durée indicative	Objectif
Accueil	5 min	Présenter l'objectif du chapitre 3 (analyser le réseau).
Lexique / Rappel	5 min	Rappel 784→64→64→10, vocabulaire.
Précision / Couches / Poids	15 min	Précision ~96 %, intuition vs réalité, grille des poids.
Dessin + neurones / Bruit / Limites	15 min	Dessin en direct, bruit, image décalée.
Défi 3→8 / Quiz	10 min	Défi, quiz final chapitre 3.

Réponses aux quiz courts (Chapitre 3)

La précision, c'est quoi ? → Le pourcentage de bonnes réponses sur des images de test.
Les poids de la 2e couche ressemblent à… → Des motifs flous ou des taches (presque aléatoires).
En cliquant sur un neurone, on voit… → La grille de ses 784 poids (le motif qu'il regarde).
Avec une image de bruit, le réseau… → Il répond avec une confiance souvent forte.
Si on décale l'image, le réseau… → Il se trompe souvent.

Idées d'activités

Défi 3→8 : dessiner un 3, l'étendre en 8, observer les neurones qui changent.
Comparaison : image de bruit vs vrai chiffre (confiance du réseau).
Trace écrite : noter les mots du lexique chapitre 3 et une phrase par section.

Technique

Chapitre 3 charge le réseau depuis les sauvegardes (localStorage) du chapitre 1. Si aucune sauvegarde n'existe, le réseau est initialisé aléatoirement ; les poids seront alors « bizarres » par défaut. Mieux vaut avoir entraîné au moins quelques epochs au chapitre 1 avant d'utiliser le chapitre 3.