Chapitre 6 – Les grands modèles de langage (LLM)

Accueil – Chapitre 6

À la fin de ce chapitre 6, tu sauras : ce qu'est un LLM (grand modèle de langage), pourquoi il « prédit le mot suivant », ce que sont les Transformers et l'attention, et pourquoi on parle de « boîte noire » malgré des milliards de paramètres.

J'ai compris

Bienvenue dans le chapitre 6 ! C'est à la fois la suite des chapitres précédents — même site, même façon d'expliquer comment une machine apprend en ajustant des paramètres (comme au chapitre 1 à 5) — et une partie à part : on entre dans le monde des grands modèles de langage (LLM), ceux qui pilotent les chatbots. Ici, plus d'images ni de pixels : un LLM travaille uniquement sur du texte. Il reçoit une séquence de mots (ou de tokens, les unités de base du texte pour le modèle), et il prédit le mot — ou token — suivant. Les chatbots répètent cette prédiction encore et encore pour générer des réponses.

Pour obtenir un chatbot, on commence par fixer un texte qui décrit l'interaction entre un utilisateur et un assistant IA fictif. On y ajoute la question que tape l'utilisateur. Puis le modèle prédit mot après mot (token après token) ce que cet assistant fictif répondrait — et c'est cette suite qui s'affiche à l'écran. Quand tu discutes avec un chatbot, c'est exactement ce qui se passe. Comment le texte devient des nombres (tokens, embedding) et comment on obtient les probabilités ? On en reparlera plus en détail au chapitre 7. L’attention et les MLP seront détaillés aux chapitres 8 et 9.

Du texte à la réponse (en un schéma)

Texte → Prédiction du mot suivant → Répéter → Réponse du chatbot

Commencer par le lexique Vérité 1 – Machine à prédire Entrée / sortie du LLM Chapitre 5 – Rétropropagation Chapitre 7 – Du texte aux nombres

En résumé : Un LLM est une fonction mathématique qui prédit le mot suivant. Les chatbots répètent cette prédiction encore et encore pour générer des réponses. Ce chapitre dévoile cinq vérités sur cette mécanique.

Lexique

Objectif : Connaître les mots du chapitre 6 (LLM, token, prédiction du mot suivant, paramètres, pré-entraînement, RLHF, Transformer, attention, feed-forward, émergence).

LLM (Large Language Model): Un grand modèle de langage : une fonction mathématique sophistiquée qui prédit le mot suivant pour n'importe quel morceau de texte. Comme si : un devin qui ne fait que deviner la suite d'une phrase.
Prédiction du mot / token suivant: À partir d'un texte déjà écrit (séquence de tokens), le modèle attribue une probabilité à chaque token possible pour la position suivante. Comme si : la suggestion de ton téléphone quand tu tapes un message.
Paramètres (poids): Les « curseurs » du modèle : des centaines de milliards de nombres qui définissent son comportement. Personne ne les règle à la main ; ils sont appris. Comme si : des milliards de curseurs sur une machine, tous ajustés automatiquement par l'entraînement.
Token: Unité de base du texte pour le modèle : un mot entier, une partie de mot ou un symbole. Le modèle lit et produit des tokens, pas des pixels ni des images. Comme si : les briques avec lesquelles le LLM construit et décompose le texte.
Pré-entraînement: Phase d'entraînement sur d'énormes quantités de texte (souvent tirées du Web) pour apprendre à prédire le mot suivant. Comme si : lire des milliards de pages pour deviner la suite.
RLHF: Reinforcement Learning with Human Feedback : des humains signalent les réponses inutiles ou problématiques ; le modèle est affiné pour mieux correspondre à ce qu'on préfère. Comme si : un correcteur qui dit « cette phrase, non ; celle-là, oui ».
Transformer: Une architecture de modèle (depuis 2017) qui lit tout le texte d'un coup, en parallèle, au lieu de mot après mot. Comme si : lire une page entière d'un regard au lieu de mot par mot.
Attention: Une opération dans le Transformer qui permet aux vecteurs des mots de « communiquer » entre eux pour affiner le sens selon le contexte. Comme si : le mot « banque » qui change de sens selon les mots autour (rivière vs argent).
Feed-forward (MLP): Réseau de neurones à propagation avant à l'intérieur du Transformer ; il stocke des motifs linguistiques appris. Comme si : une couche cachée qui enrichit l'information.
Émergence: Comportement complexe qui apparaît sans avoir été programmé explicitement, grâce aux milliards de paramètres réglés par l'entraînement. Comme si : la « compréhension » qui semble sortir des calculs sans qu'on ait écrit les règles.
GPU: Processeur graphique : une puce conçue pour effectuer un très grand nombre d'opérations en parallèle. C'est ce type de matériel qui rend possible l'entraînement des LLM (des milliards d'opérations simultanées). Comme si : des milliers de calculatrices qui travaillent en même temps.

Rappel : entrée et sortie d'un LLM

Objectif : Bien situer ce qu'un LLM reçoit (texte / tokens) et ce qu'il produit (probabilités sur le mot ou token suivant).

Un LLM ne travaille pas sur des images. Son entrée est toujours du texte : une séquence de tokens (mots ou parties de mots) convertis en nombres par le modèle. Son sortie est une distribution de probabilités : pour chaque token possible, le modèle indique à quel point il est probable comme suite du texte. On choisit un token (souvent en tirant au sort selon ces probabilités), on l'ajoute au texte, et on recommence. C'est ainsi que le chatbot « écrit » sa réponse, token après token.

Comme dans les chapitres 1 à 5, le modèle « apprend » en ajustant des paramètres (rétropropagation, descente de gradient, etc.). La différence : ici tout se fait sur du langage — entrée et sortie sont du texte (tokens), pas des pixels ni des chiffres écrits à la main.

Texteséquence de tokens

Transformerattention, MLP

Probabilitéstoken suivant

En résumé : Entrée = texte (tokens en nombres). Sortie = probabilité pour chaque token suivant. Le LLM ne voit que du langage, jamais d'images. Même idée d'apprentissage qu'avant, mais appliquée au texte : c'est la continuité, et en même temps la partie « LLM » du parcours.

Vérité 1 : Le LLM n'est qu'une machine à prédire le mot suivant

Objectif : Comprendre qu'un LLM ne « comprend » pas au sens humain ; c'est une fonction qui prédit le mot suivant et attribue des probabilités à tous les mots possibles.

Malgré l'apparente intelligence de ses réponses, un LLM ne « comprend » pas ta question au sens humain. C'est une fonction statistique monumentale.

« Un grand modèle de langage (LLM) est une fonction mathématique sophistiquée qui prédit le mot suivant pour n'importe quel morceau de texte. »

Plutôt que de choisir un seul mot avec une certitude absolue, le modèle attribue une probabilité à tous les mots possibles. Par exemple, après avoir reçu « Peux-tu expliquer... un semi-conducteur... », la machine peut calculer que le mot « utilisé » est une suite très probable. En répétant ce processus de prédiction sur chaque nouveau mot généré, elle construit des paragraphes entiers qui semblent rédigés par un humain.

Voir concrètement : le modèle reçoit du texte et prédit le mot suivant (simulation).

Peux-tu expliquer un semi-conducteur

Mot prédit : —

Un LLM, au fond, fait quoi ?

Il comprend le sens des phrases Il prédit le mot suivant et attribue des probabilités

En résumé : Le LLM = une grosse fonction qui donne des probabilités pour le mot suivant. Pas de « pensée », juste des calculs.

Vérité 2 : L'imperfection volontaire pour paraître « naturel »

Objectif : Comprendre pourquoi le modèle ne choisit pas toujours le mot le plus probable et pourquoi une même question peut donner des réponses différentes.

Si l'on s'en tenait strictement aux mathématiques, la machine devrait toujours choisir le mot ayant le score de probabilité le plus élevé. Mais le résultat serait souvent rigide et mécanique. Pour que le langage paraisse plus fluide et organique, les modèles sont configurés pour sélectionner parfois, de manière aléatoire, des mots dont la probabilité est un peu plus faible.

C'est ce qui crée un pont entre la rigueur mathématique et la fluidité humaine : bien que le modèle lui-même soit déterministe, cette sélection aléatoire fait qu'un même prompt donnera généralement une réponse différente à chaque exécution. C'est cette part d'aléa contrôlé qui évite à l'IA de paraître trop prévisible.

Voir : répartition des probabilités sur quelques mots possibles (simulation). Le modèle ne prend pas toujours le plus haut.

En résumé : On injecte un peu de hasard dans le choix du mot pour que le texte sonne naturel. D'où des réponses différentes à chaque fois.

Vérité 3 : Une échelle de calcul qui défie le temps humain

Objectif : Mesurer l'échelle des données et des calculs (lecture, entraînement) pour des LLM comme GPT-3 / GPT-4.

L'adjectif « Large » (grand) dans LLM n'est pas une figure de style. Il décrit une démesure de données et de calculs qui échappe à l'intuition humaine. Pour GPT-3 et ses successeurs comme GPT-4, les ordres de grandeur sont vertigineux :

L'échelle de lecture : Pour qu'un humain puisse lire la quantité de texte utilisée pour entraîner GPT-3, il lui faudrait lire 24 h/24 sans interruption pendant plus de 2 600 ans.
L'échelle de calcul : Si tu pouvais effectuer un milliard d'opérations mathématiques (additions et multiplications) chaque seconde, il te faudrait plus de 100 millions d'années pour réaliser l'ensemble des calculs nécessaires à l'entraînement des plus grands modèles actuels.

Cette puissance sert à ajuster des centaines de milliards de paramètres (poids), qu'on peut imaginer comme autant de curseurs sur une machine géante définissant les probabilités de chaque mot. Une telle quantité de calculs n'est possible que grâce à des puces spécialisées optimisées pour effectuer des millions d'opérations en parallèle : les GPU (processeurs graphiques), qui permettent d'entraîner les plus grands modèles en un temps réaliste.

Voir : ordres de grandeur (lecture 2 600 ans ; calcul 100 M d'années).

Texte GPT-3 (lecture humaine 24/7) 2 600 ans

Calcul entraînement (1 milliard d'op/s) 100 000 000 ans

En résumé : « Large » = des centaines de milliards de paramètres et des calculs qui dépassent l'échelle humaine.

Vérité 4 : La révolution « Transformer » et le don de l'attention

Objectif : Comprendre que les Transformers lisent tout le texte en parallèle, et que l'attention permet d'affiner le sens des mots selon le contexte.

Avant 2017, les modèles traitaient le texte mot après mot. Tout a changé avec l'invention du Transformer par des chercheurs de Google. Contrairement à leurs prédécesseurs, les Transformers absorbent l'intégralité d'un texte d'un seul coup, en parallèle.

Le processus commence par une étape cruciale : chaque mot est associé à une longue liste de nombres (des vecteurs). C'est indispensable, car l'entraînement mathématique ne peut travailler qu'avec des valeurs continues. Ensuite, deux opérations majeures entrent en jeu :

L'Attention : Elle permet à ces listes de nombres de « communiquer » entre elles pour affiner leur sens selon le contexte. Par exemple, le mot « banque » verra sa représentation numérique modifiée si les mots environnants sont « rivière » et « sauter dans », pour encoder la notion de rive.
Le réseau à propagation avant (feed-forward / MLP) : Il offre au modèle une capacité supplémentaire pour stocker les motifs linguistiques complexes appris durant l'entraînement.

Les données parcourent de nombreuses fois ces deux opérations. À la fin, une dernière fonction est appliquée au dernier vecteur de la séquence (enrichi par tout le contexte et tout ce que le modèle a appris) pour produire la prédiction : une probabilité pour chaque mot suivant possible.

Voir : Texte → vecteurs → Attention (mots qui se « parlent ») → MLP → prédiction.

Texte

→

Vecteurs (nombres)

→

Attention

→

MLP

→

Mot suivant

Que fait l'attention dans un Transformer ?

Elle lit le texte mot par mot Elle permet aux vecteurs des mots de communiquer pour affiner le sens selon le contexte

En résumé : Transformer = tout le texte d'un coup. Attention = les mots affinent leur sens en fonction des autres. MLP = stockage de motifs.

Vérité 5 : Le mystère de l'émergence (la « boîte noire »)

Objectif : Comprendre que personne ne programme les règles du langage ; les comportements émergent de la rétropropagation et des trillions d'exemples.

L'aspect le plus fascinant des LLM est qu'aucun programmeur ne dicte les règles de grammaire ou de logique au modèle. Au début, les paramètres sont réglés au hasard et la machine ne produit que du charabia.

L'apprentissage se fait via un algorithme appelé rétropropagation (backpropagation). La machine tente de deviner le mot suivant d'un texte d'exemple, compare sa prédiction au vrai dernier mot du texte, puis ajuste ses milliards de curseurs pour réduire l'erreur. Après des trillions d'essais, des comportements sophistiqués « émergent ».

Comme ces réglages résultent de calculs massifs et non d'une programmation logique directe, il est devenu presque impossible pour les chercheurs de comprendre précisément pourquoi une prédiction spécifique est faite. Nous maîtrisons l'architecture, mais le résultat final reste, par bien des aspects, une boîte noire.

Voir : Au départ = charabia ; après entraînement = prédictions cohérentes. Personne n'a écrit les règles à la main.

Paramètres aléatoires → xkj !? zqq...

Après entraînement → Le chat est sur le tapis.

En résumé : Les paramètres partent du hasard. La rétropropagation les affine. Les comportements « intelligents » émergent sans qu'on ait programmé les règles.

Conclusion : Vers une nouvelle compréhension de l'intelligence

Objectif : Retenir que le chatbot ne pense pas — il calcule la suite logique ; et que le RLHF affine le comportement après le pré-entraînement.

Derrière la fluidité de ton chatbot se cachent des trillions d'opérations mathématiques et un processus de finition appelé RLHF (Apprentissage par renforcement avec rétroaction humaine), où des opérateurs humains signalent les prédictions inutiles ou problématiques pour affiner le comportement du modèle.

Si une simple fonction mathématique visant à prédire statistiquement la suite d'un texte peut simuler la pensée et l'empathie, une question demeure : que reste-t-il de spécifiquement humain dans notre propre usage du langage ?

Le chatbot ne pense pas — il calcule la suite logique de ton histoire.

En résumé : Pré-entraînement (prédire le mot suivant) + RLHF (préférences humaines) = chatbot. La « pensée » est une illusion produite par des calculs.

Ce que votre chatbot ne vous dit pas : 5 vérités surprenantes sur les LLM

Lorsque vous interagissez avec un chatbot, l'illusion d'une conversation avec une entité consciente est saisissante. Pourtant, la réalité technique est celle d'une reconstruction méticuleuse. Imaginez que vous tombiez sur un script de film décrivant une scène entre un humain et son assistant IA. Le script contient les questions de l'humain, mais la réponse de l'IA a été arrachée. Pour compléter ce dialogue, vous utiliseriez une machine capable de prédire logiquement le mot suivant, encore et encore, jusqu'à reconstituer la scène.

C'est précisément ce qui se passe sous le capot des Large Language Models (LLM). Voici cinq vérités essentielles pour comprendre la mécanique mathématique de ces géants numériques.

1. Le LLM n'est qu'une machine à prédire le mot suivant

Malgré l'apparente intelligence de ses réponses, un LLM ne « comprend » pas votre question au sens humain. Il s'agit d'une fonction statistique monumentale.

« Un grand modèle de langage (LLM) est une fonction mathématique sophistiquée qui prédit le mot suivant pour n'importe quel morceau de texte. »

Plutôt que de choisir un seul mot avec une certitude absolue, le modèle attribue une probabilité à tous les mots possibles. Par exemple, après avoir reçu les mots « Peux-tu expliquer... un semi-conducteur... », la machine calculera que le mot « utilisé » est une suite hautement probable. En répétant ce processus de prédiction sur chaque nouveau mot généré, elle finit par construire des paragraphes entiers qui semblent avoir été rédigés par un humain.

2. L'imperfection volontaire pour paraître « naturel »

Si l'on s'en tenait strictement aux mathématiques, la machine devrait toujours choisir le mot ayant le score de probabilité le plus élevé. Cependant, le résultat serait souvent rigide et mécanique. Pour que le langage paraisse plus fluide et organique, les modèles sont configurés pour sélectionner parfois, de manière aléatoire, des mots dont la probabilité est un peu plus faible.

C'est ce qui crée un pont entre la rigueur mathématique et la fluidité humaine : bien que le modèle lui-même soit déterministe, cette sélection aléatoire fait qu'un même prompt donnera généralement une réponse différente à chaque exécution. C'est cette part d'aléa contrôlé qui évite à l'IA de paraître trop prévisible.

3. Une échelle de calcul qui défie le temps humain

L'adjectif « Large » (grand) dans LLM n'est pas une figure de style ; il décrit une démesure de données et de calculs qui échappe à l'intuition humaine. Pour GPT-3 et ses successeurs comme GPT-4, les chiffres sont vertigineux :

L'échelle de lecture : Pour qu'un humain puisse lire la quantité de texte utilisée pour entraîner GPT-3, il lui faudrait lire 24h/24 sans interruption pendant plus de 2 600 ans.
L'échelle de calcul : Si vous étiez capable d'effectuer un milliard d'opérations mathématiques (additions et multiplications) chaque seconde, il vous faudrait plus de 100 millions d'années pour réaliser l'ensemble des calculs nécessaires à l'entraînement des plus grands modèles actuels.

Cette puissance est mobilisée pour ajuster des centaines de milliards de « paramètres » ou « poids », que l'on peut imaginer comme autant de curseurs sur une machine géante définissant les probabilités de chaque mot.

4. La révolution « Transformer » et le don de l'attention

Avant 2017, les modèles traitaient le texte mot après mot. Tout a changé avec l'invention du Transformer par des chercheurs de Google. Contrairement à leurs prédécesseurs, les Transformers absorbent l'intégralité d'un texte d'un seul coup, en parallèle.

Le processus commence par une étape cruciale : chaque mot est associé à une longue liste de nombres (des vecteurs). C'est indispensable, car le processus d'entraînement mathématique ne peut travailler qu'avec des valeurs continues. Ensuite, deux opérations majeures entrent en jeu :

L'Attention : Elle permet à ces listes de nombres de « communiquer » entre elles pour affiner leur sens selon le contexte. Par exemple, le mot « banque » verra sa définition numérique modifiée si les mots environnants sont « rivière » et « sauter dans », afin d'encoder spécifiquement la notion de rive.
Le réseau de neurones à propagation avant (feed-forward) : Il offre au modèle une capacité supplémentaire pour stocker les motifs linguistiques complexes appris durant l'entraînement.

5. Le mystère de l'émergence (La « Boîte Noire »)

L'aspect le plus fascinant des LLM est qu'aucun programmeur ne dicte les règles de grammaire ou de logique au modèle. Au début, les paramètres sont réglés au hasard et la machine ne produit que du charabia.

L'apprentissage se fait via un algorithme appelé rétropropagation (backpropagation). La machine tente de deviner le mot suivant d'un texte d'exemple, compare sa prédiction au vrai dernier mot du texte, puis ajuste ses milliards de curseurs pour réduire l'erreur. Après des trillions d'essais, des comportements sophistiqués « émergent ».

Puisque ces réglages résultent de calculs massifs et non d'une programmation logique directe, il est devenu presque impossible pour les chercheurs de comprendre précisément pourquoi une prédiction spécifique est faite. Nous maîtrisons l'architecture, mais le résultat final reste, par bien des aspects, une boîte noire.

Conclusion : Vers une nouvelle compréhension de l'intelligence

Derrière la fluidité de votre chatbot se cachent des trillions d'opérations mathématiques et un processus de finition appelé RLHF (Apprentissage par renforcement avec rétroaction humaine), où des opérateurs humains signalent les prédictions inutiles ou problématiques pour affiner le comportement du modèle.

Si une simple fonction mathématique visant à prédire statistiquement la suite d'un texte peut simuler la pensée et l'empathie, une question demeure : que reste-t-il de spécifiquement humain dans notre propre usage du langage ?

Le chatbot ne pense pas, il calcule la suite logique de votre propre histoire.

Générés par NotebookLM (Google).

Quiz : teste ta compréhension

Objectif : Répondre à des questions sur le chapitre 6 (LLM, mot suivant, probabilités, Transformer, attention, RLHF, émergence) et obtenir une note sur 20.

Choisis un quiz :

Cartes mémoire

Cartes mémoire (flashcards) pour réviser les notions du chapitre 6 (LLM, Transformer, attention, RLHF, pré-entraînement).

Chargement…

Générés par NotebookLM (Google).

Fiche enseignant

Contenu de la fiche pédagogique pour le chapitre 6 (objectifs, durée par section, réponses aux quiz, idées d'activités).

Objectifs pédagogiques (Chapitre 6)

Comprendre qu'un LLM est une fonction qui prédit le mot suivant et attribue des probabilités.
Comprendre pourquoi les réponses varient (sélection parfois aléatoire pour un rendu naturel).
Mesurer l'échelle des données et des calculs (2 600 ans de lecture, 100 M d'années de calcul).
Connaître la révolution Transformer (texte en parallèle) et le rôle de l'attention et du MLP.
Comprendre l'émergence et la « boîte noire » (personne ne programme les règles à la main).
Savoir que le RLHF affine le comportement après le pré-entraînement.

Niveau et prérequis

Niveau : fin collège / lycée.
Prérequis : les chapitres 1 à 5 aident à comprendre l'apprentissage (paramètres, rétropropagation), mais le chapitre 6 se suit aussi à part. On y parle uniquement de LLM (texte, tokens) — continuité du parcours et en même temps une partie à part.
Durée indicative : 45 min à 1 h pour le parcours complet du chapitre 6.

Structure du parcours (Chapitre 6)

Section	Durée indicative	Objectif
Accueil	5 min	Présenter le chapitre 6 : LLM uniquement (texte, tokens), pas d'images.
Lexique	5 min	LLM, token, prédiction du mot/token suivant, paramètres, pré-entraînement, RLHF, Transformer, attention, MLP, émergence.
Rappel	5 min	Entrée = texte (tokens) ; sortie = probabilités sur le token suivant. Pas d'images.
Vérités 1 à 5 + Conclusion	25–30 min	Les 5 vérités + conclusion ; utiliser les visualisations et quiz courts.
5 vérités (texte complet)	5 min	Lecture du résumé « Ce que votre chatbot ne vous dit pas ».
Quiz / Cartes	10 min	Quiz final chapitre 6 ; flashcards ../notebook/chapitre-6.

Réponses aux quiz courts (Chapitre 6)

Un LLM, au fond, fait quoi ? → Il prédit le mot suivant et attribue des probabilités.
Que fait l'attention dans un Transformer ? → Elle permet aux vecteurs des mots de communiquer pour affiner le sens selon le contexte.

Réponses au quiz final Chapitre 6

Voir les questions dans js/quiz.js (questionsChapitre6). Barème : 20 / nombre de questions par bonne réponse.

Ressources

Vidéo et PDF dans ../notebook/chapitre-6/ : Grands_modèles_de_langage.mp4, Inside_LLM_Architecture.pdf. Flashcards : ../notebook/chapitre-6/flashcards.csv.

Idées d'activités

Débat : « Le chatbot pense-t-il ou calcule-t-il ? »
Expérience : Poser la même question plusieurs fois à un chatbot et observer les réponses différentes.
Trace écrite : Les 5 vérités en une phrase chacune.