Chapitre 7 – Du texte aux nombres : tokens, embeddings et prédiction

Accueil – Chapitre 7

À la fin de ce chapitre 7, tu sauras : comment le texte est découpé en tokens, comment les mots deviennent des vecteurs (embedding), ce que sont les directions dans l'espace des vecteurs, et comment on passe du dernier vecteur aux probabilités (désembedding, softmax, température).

J'ai compris

Bienvenue dans le chapitre 7 ! Au chapitre 6, tu as vu qu'un LLM prédit le mot suivant et que le Transformer lit tout le texte en parallèle avec l'attention. Ici, on ouvre la « boîte » : on détaille comment le texte devient des nombres au début (tokens, embedding) et comment on obtient la prédiction à la fin (désembedding, softmax). Le mécanisme d’attention (requêtes Q, clés K, valeurs V) est détaillé au chapitre 8 ; le rôle des MLP (où sont stockés les faits) au chapitre 9.

Du texte au mot suivant (en un schéma)

Texte → Tokens → Vecteurs → … Attention, MLP … → Softmax → Probabilités → Mot suivant

Commencer par le lexique Les tokens Le softmax Chapitre 6 – LLM

En résumé : Ce chapitre détaille tokens → vecteurs (embedding), directions dans l'espace, puis dernier vecteur → logits → softmax → probabilités.

Lexique

Objectif : Connaître les mots du chapitre 7 (token, tokenisation, embedding, vecteur, dimension, produit scalaire, désembedding, logits, softmax, température).

Token: Unité de base du texte pour le modèle : un mot, une partie de mot ou un symbole. Le texte est découpé en tokens avant d'entrer dans le modèle. Comme si : les briques avec lesquelles le modèle lit et produit le texte.
Tokenisation: Le découpage du texte en tokens (ex. « To| date|,| the| cle|ve|rest| »). Comme si : couper une phrase en petits morceaux numérotés.
Embedding (plongement): Transformation d'un token en une liste de nombres (vecteur). Chaque mot devient un point dans un espace à nombreuses dimensions. Comme si : donner des coordonnées à chaque mot.
Matrice d'embedding: Une grande table (matrice) dont chaque colonne est le vecteur d'un token du vocabulaire. Le modèle « cherche » la colonne correspondant au token. Comme si : un annuaire mot → liste de nombres.
Vecteur: Une liste de nombres (ex. 12 288 pour les grands modèles). En apprentissage, tout est manipulé sous forme de vecteurs. Comme si : les coordonnées d'un point dans un espace géant.
Dimension: Le nombre de nombres dans un vecteur. Plus il y a de dimensions, plus l'espace peut encoder de nuances (sens, contexte). Comme si : le nombre d'axes dans un repère.
Produit scalaire: Une opération entre deux vecteurs qui mesure à quel point ils « pointent dans la même direction ». Plus le produit scalaire est grand, plus les vecteurs sont similaires. Comme si : un score de similarité entre deux directions.
Désembedding: L'opération inverse de l'embedding : le dernier vecteur est multiplié par une matrice pour obtenir un score (logit) par token du vocabulaire. Comme si : repasser des coordonnées à des scores par mot.
Logits: Les scores bruts avant la fonction softmax. Ce ne sont pas encore des probabilités (ils peuvent être négatifs, et leur somme n'est pas 1). Comme si : les notes avant de les transformer en pourcentages.
Softmax: Une fonction qui transforme une liste de logits en probabilités : tous les nombres entre 0 et 1, et leur somme vaut 1. Comme si : convertir des scores en « chances » pour chaque mot.
Température: Un paramètre (souvent noté T) utilisé dans le softmax. T petit → le modèle choisit surtout le mot le plus probable ; T grand → la distribution est plus plate, plus de variété. Comme si : un curseur entre « rigide » et « créatif ».

Rappel : entrée et sortie du Transformer

Objectif : Resituer où se placent les étapes de ce chapitre (début : tokens, embedding ; fin : désembedding, softmax).

Un LLM reçoit du texte (une séquence de tokens) et produit une distribution de probabilités sur le token suivant. Entre les deux, le Transformer alterne des blocs d'attention et des couches MLP (feed-forward). Dans ce chapitre, on détaille ce qui se passe au tout début (comment le texte devient des vecteurs) et à la toute fin (comment le dernier vecteur devient des probabilités).

Textetokens

Embeddingvecteurs

Attention + MLP

Désembeddinglogits

Softmaxprobabilités

En résumé : Ce chapitre détaille le début (tokens, embedding) et la fin (désembedding, softmax) du Transformer.

Les tokens : découper le texte

Objectif : Comprendre que le modèle ne lit pas des mots entiers comme nous ; il travaille sur des morceaux (tokens) qui peuvent être des mots, des parties de mots ou des symboles.

Avant d'entrer dans le modèle, le texte est découpé en tokens. Un token peut être un mot entier, une partie de mot (syllabe, préfixe) ou un symbole (ponctuation). Par exemple, la phrase « To date, the cleverest thinker of all time was » peut être tokenisée ainsi : To| date|,| the| cle|ve|rest| thinker| of| all| time| was. Chaque token est l'unité de base : le modèle lit et produit des tokens, pas des lettres une par une.

Voir : une phrase découpée en tokens (séparateurs |).

Le chat dort sur le tapis.

Un token, c'est quoi ?

Une lettre Un morceau de texte (mot, partie de mot ou symbole) utilisé par le modèle

En résumé : Le texte est découpé en tokens. Chaque token est l'unité d'entrée et de sortie du modèle.

L'embedding : des mots aux vecteurs

Objectif : Comprendre que chaque token est transformé en une liste de nombres (vecteur) grâce à une matrice d'embedding ; au départ le vecteur ne code que le sens du mot, puis il « absorbe » le contexte en traversant le réseau.

Le modèle possède un vocabulaire fixe (par exemple environ 50 000 tokens). La première étape est l'embedding : une grande matrice a une colonne par token. Quand le modèle voit un token, il « cherche » la colonne correspondante et obtient un vecteur — une liste de N nombres (par exemple 12 288 dimensions pour les grands modèles). Ces vecteurs sont appris pendant l'entraînement. Au tout début, chaque vecteur ne code que le sens du mot seul ; en traversant les blocs d'attention et de MLP, il absorbe le contexte (les mots autour) et devient plus riche.

Voir : un mot choisi est associé à un vecteur (liste de nombres simplifiée).

En résumé : Matrice d'embedding : un vecteur (liste de nombres) par token. Au départ = sens du mot ; après le réseau = sens enrichi par le contexte.

Directions et sens dans l'espace des vecteurs

Objectif : Comprendre que les directions dans l'espace des vecteurs ont du sens (ex. genre, pluralité) et que le produit scalaire mesure la similarité.

Dans l'espace des vecteurs, les directions ont du sens. Par exemple, la direction « femme − homme » est proche de la direction « reine − roi » : on peut retrouver des mots par addition de vecteurs (roi + (femme − homme) ≈ reine). Autre exemple : la direction « chats − chat » code la pluralité ; si on fait le produit scalaire de cette direction avec les vecteurs des mots « un », « deux », « trois », « quatre », on obtient des valeurs croissantes — comme une échelle de quantité. Mots de sens proche = vecteurs proches ; le produit scalaire mesure à quel point deux vecteurs pointent dans la même direction.

Voir : similarité (simulée) entre un mot de référence et d'autres mots.

Mot de référence : roi

En résumé : Les directions dans l'espace ont du sens (genre, nombre). Produit scalaire = similarité entre vecteurs.

Du dernier vecteur à la prédiction : désembedding et logits

Objectif : Comprendre que seul le dernier vecteur de la séquence est converti en scores (logits) par la matrice de désembedding, et pourquoi.

Après tous les blocs d'attention et de MLP, la séquence de vecteurs est enrichie. Pour produire la prédiction du mot suivant, on n'utilise que le dernier vecteur de cette séquence. Pourquoi ? À l'entraînement, chaque position du texte est utilisée pour prédire ce qui vient juste après ; en pratique, pour la génération, on ne garde que la dernière position, qui résume tout le contexte. Ce dernier vecteur est multiplié par une matrice de désembedding : on obtient une liste de scores, un par token du vocabulaire. Ces scores bruts s'appellent les logits. Ils ne sont pas encore des probabilités (ils peuvent être négatifs, et leur somme n'est pas 1).

Voir : Dernier vecteur → Matrice désembedding → scores (logits) pour chaque mot.

Dernier vecteur

→

Matrice désembedding

→

Logits (scores)

En résumé : Dernier vecteur × matrice désembedding = un logit (score) par token. Les logits sont les scores bruts avant le softmax.

Le softmax : des scores aux probabilités

Objectif : Comprendre comment les logits deviennent des probabilités (softmax) et l'effet de la température.

Les logits sont transformés en probabilités par la fonction softmax : on calcule l'exponentielle de chaque score, puis on divise chaque valeur par la somme de toutes les exponentielles. On obtient une liste de nombres entre 0 et 1 dont la somme vaut 1 — une vraie distribution de probabilités. Le nom « soft » max vient du fait qu'on donne du poids à toutes les valeurs relativement grandes, pas seulement au maximum. Pour la génération, on ajoute souvent un paramètre température (T) dans les exposants : T petit (ou 0) → la distribution est très piquée, le modèle choisit presque toujours le mot le plus probable (déterministe) ; T grand → la distribution est plus plate, plus de variété et de « créativité ».

Voir : des logits (exemple) transformés en probabilités par le softmax.

Voir : effet de la température T sur la distribution (mêmes logits).

Température T : 1

À quoi sert la fonction softmax ?

À découper le texte en tokens À transformer les logits en probabilités (nombres entre 0 et 1 dont la somme vaut 1)

En résumé : Softmax : logits → probabilités. Température T : T petit = choix déterministe ; T grand = plus de variété.

Conclusion du chapitre 7

Objectif : Retenir la chaîne complète du texte à la prédiction.

Tu as vu comment le texte devient des nombres et comment la prédiction sort du modèle : Texte → Tokens → Vecteurs (embedding) → passage dans les blocs d'attention et MLP (les vecteurs absorbent le contexte) → dernier vecteur → désembedding → logits → softmax → probabilités sur le token suivant. Tout est des multiplications de matrices et des fonctions apprises ; la « compréhension » émerge de ces calculs.

En résumé : Chaîne complète : tokens, embedding, attention/MLP, désembedding, softmax. Tout est nombres et matrices apprises.

La Géométrie du Sens : Pourquoi ChatGPT n'est qu'une immense partie de Billard à 12 000 dimensions

1. Introduction : Le mirage de la conversation

Lorsque vous discutez avec ChatGPT, il est facile de tomber dans le piège : on a l'impression de parler à une entité qui « réfléchit ». Mais si l'on ouvrait le capot de la bête, on ne trouverait ni conscience, ni neurones biologiques, ni même une étincelle de compréhension. On y trouverait une mécanique statistique d'une précision chirurgicale. C'est un peu comme si le texte prédictif de votre iPhone avait soudainement passé un doctorat en littérature comparée : l'IA ne comprend pas votre question, elle calcule la trajectoire mathématique la plus probable pour y répondre. Ce que nous percevons comme une pensée fluide n'est en réalité qu'une symétrie parfaite de multiplications de matrices.

2. La prédiction n'est qu'un jeu de probabilités répété

Le terme technique est Generative Pre-trained Transformer (GPT). Derrière cet acronyme barbare se cache une mission d'une simplicité désarmante. Le GPT est un modèle entraîné à prendre un morceau de texte, puis à produire une prédiction de ce qui suit.

Prédire le mot suivant peut sembler être un jeu d'enfant, mais c'est un « proxy » pour quelque chose de bien plus vaste : pour prédire parfaitement la fin d'une phrase de Sherlock Holmes ou le résultat d'une équation, le modèle doit, par extension, « comprendre » les règles du monde. En injectant sa propre prédiction en boucle dans son système (le mot prédit devient une donnée d'entrée pour le calcul suivant), le modèle transforme une simple statistique en un récit structuré. C'est cette répétition foudroyante qui crée l'illusion d'une conscience suivie, alors qu'il ne s'agit que de probabilités s'empilant les unes sur les autres.

3. Les mots sont des coordonnées dans un espace géant

Pour qu'un ordinateur manipule des idées, il doit les transformer en nombres. C'est l'étape des Embeddings (plongements lexicaux). Chaque mot devient un vecteur, c'est-à-dire une liste de coordonnées. Pour GPT-3, cet espace possède 12 288 dimensions. Imaginez un espace où « Chat » n'est pas une suite de lettres, mais un point précis défini par 12 288 chiffres.

Dans cet univers, la direction a un sens. La magie opère quand on réalise que les relations sémantiques deviennent de simples additions :

Le calcul Italie − Allemagne + Hitler produit un vecteur extrêmement proche de Mussolini.
Plus bluffant encore : si vous calculez la direction du « pluriel » (en soustrayant chat de chats), vous obtenez un vecteur de pluralité. En faisant le produit scalaire de ce vecteur avec les mots « un », « deux », « trois », « quatre », on observe des valeurs croissantes. Ce n'est pas un simple interrupteur binaire, mais une véritable échelle mathématique de la quantité.

4. Le « trempage » contextuel : Quand les mots absorbent leur entourage

Un mot isolé est une coquille vide. « Modèle » signifie-t-il une star des podiums ou un algorithme ? Le Bloc d'Attention résout ce problème en permettant aux vecteurs de « communiquer » entre eux. Chaque vecteur de mot regarde ses voisins pour mettre à jour son propre sens. On peut voir le sens d'un mot, comme « plume » (quill), être informé par son entourage, qu'il s'agisse d'un accessoire d'écriture ou d'un piquant de hérisson.

Juste après l'Attention vient le Multilayer Perceptron (MLP). Si l'Attention est une « discussion de groupe » entre les mots, le MLP est le moment où le mot « réfléchit » seul. C'est une couche de feed-forward qui agit comme une liste de contrôle de questions internes (ex. : « Suis-je un verbe ? », « Fait-on référence à de la nourriture ? ») pour affiner encore la position du vecteur.

Tout ce traitement se fait dans la fenêtre de contexte (2048 tokens pour GPT-3). Imaginez cela comme la « mémoire vive » (RAM) du modèle : une matrice géante de 2048 × 12 288 données. Une fois la conversation trop longue, les premiers mots sortent de cette RAM, et le bot « perd le fil », car sa vision du monde est limitée par cette fenêtre.

5. 175 milliards de boutons de réglage

L'intelligence de GPT-3 réside dans ses 175 milliards de paramètres (ou poids). Contrairement au texte que vous tapez (les données éphémères), ces poids sont les réglages fixes du cerveau de l'IA, stockés comme sur un « disque dur ». Ces 175 milliards de poids sont organisés en près de 28 000 matrices réparties en 8 grandes catégories, dont :

La Matrice d'Embedding : qui transforme les 50 000 jetons du vocabulaire en vecteurs de 12 288 dimensions.
Les Matrices d'Attention : qui dictent comment les mots doivent s'influencer mutuellement.
La Matrice d'Unembedding : qui fait le chemin inverse en fin de parcours pour transformer un vecteur complexe en probabilités de mots.

C'est cette structure massive qui permet de passer d'une simple liste de nombres à une réponse cohérente.

6. La « Température » : Le curseur entre logique et folie

À la fin de son voyage, le modèle produit des Logits : des scores bruts, non normalisés, pour chaque mot possible. Pour transformer ces scores en pourcentages exploitables (où le total fait 100 %), on utilise la fonction Softmax. C'est ici qu'on règle la température (T) :

T = 0 : L'IA est rigide et déterministe. Elle choisit toujours le mot au score le plus élevé. C'est parfait pour le code ou les maths.
T élevée : Le modèle redistribue les probabilités vers les choix moins évidents. Cela introduit de la « chaleur » et de la créativité, empêchant l'IA d'être une machine répétitive et ennuyeuse.

7. Conclusion : Vers une nouvelle forme de pensée mathématique ?

Derrière l'illusion de la conscience, ChatGPT n'est qu'une pile monumentale de multiplications de matrices. Chaque phrase qu'il génère est le résultat d'un voyage géométrique où les concepts sont déplacés, tournés et projetés dans des espaces à des milliers de dimensions.

Cette prouesse technique nous force à nous regarder dans le miroir : si une simple pile de calculs peut imiter notre éloquence, notre humour et notre logique, et si notre propre langage n'était, lui aussi, qu'une forme extrêmement complexe de géométrie vectorielle ? Peut-être que penser, c'est simplement savoir naviguer dans les bonnes dimensions.

Générés par NotebookLM (Google).

Résumé : Du texte aux nombres

En une page :

Tokens : le texte est découpé en morceaux (mots ou sous-mots). Chaque token est l'unité d'entrée du modèle.
Embedding : matrice qui associe à chaque token un vecteur (liste de nombres, ex. 12 288 dimensions). Au départ le vecteur code le sens du mot ; en traversant le réseau il absorbe le contexte.
Directions : dans l'espace des vecteurs, les directions ont du sens (genre, pluralité). Le produit scalaire mesure la similarité.
Fenêtre de contexte : le modèle ne regarde qu'un nombre fixe de tokens (ex. 2048) ; au-delà il « perd le fil ».
Désembedding : le dernier vecteur est multiplié par une matrice → un score (logit) par token. À l'entraînement chaque position prédit la suite ; en génération on n'utilise que le dernier vecteur.
Softmax : les logits deviennent des probabilités (0–1, somme 1). « Soft » max = on donne du poids à toutes les valeurs relativement grandes. Température T : T petit = déterministe, T grand = plus de variété.

Quiz : teste ta compréhension

Objectif : Répondre à des questions sur le chapitre 7 (tokens, embedding, directions, désembedding, logits, softmax, température) et obtenir une note sur 20.

Choisis un quiz :

Cartes mémoire

Cartes mémoire (flashcards) pour réviser les notions du chapitre 7 (tokens, embedding, logits, softmax, température).

Chargement…

Générés par NotebookLM (Google).

Fiche enseignant

Contenu de la fiche pédagogique pour le chapitre 7 (objectifs, durée par section, réponses aux quiz, idées d'activités).

Objectifs pédagogiques (Chapitre 7)

Comprendre la tokenisation (texte découpé en morceaux).
Comprendre l'embedding (mot → vecteur) et la matrice d'embedding.
Comprendre que les directions dans l'espace ont du sens (genre, pluralité) et que le produit scalaire mesure la similarité.
Comprendre la fenêtre de contexte et pourquoi on n'utilise que le dernier vecteur pour la prédiction.
Comprendre la désembedding (dernier vecteur → logits) et le softmax (logits → probabilités).
Comprendre l'effet de la température sur la distribution.

Niveau et prérequis

Niveau : fin collège / lycée.
Prérequis : le chapitre 6 (LLM, Transformer, attention) est recommandé. Le chapitre 7 détaille le début et la fin du pipeline (tokens, embedding, désembedding, softmax).
Durée indicative : 45 min à 1 h pour le parcours complet du chapitre 7.

Structure du parcours (Chapitre 7)

Section	Durée indicative	Objectif
Accueil	5 min	Présenter la chaîne Texte → Tokens → Vecteurs → … → Softmax.
Lexique	5 min	Token, tokenisation, embedding, vecteur, logits, softmax, température.
Rappel	3 min	Resituer les étapes du chapitre dans le Transformer.
Tokens à Softmax	25–30 min	Détailler chaque étape avec les visualisations et quiz courts.
Conclusion	3 min	Chaîne complète du texte à la prédiction.
Secrets de l'Attention	10 min	Lecture « Pourquoi l'IA vous comprend enfin » (7 parties).
Résumé	3 min	Résumé en une page (tokens, embedding, softmax, etc.).
Quiz / Cartes	10 min	Quiz final chapitre 7 ; flashcards ../notebook/chapitre-7.

Réponses aux quiz courts (Chapitre 7)

Un token, c'est quoi ? → Un morceau de texte (mot, partie de mot ou symbole) utilisé par le modèle.
À quoi sert la fonction softmax ? → À transformer les logits en probabilités (nombres entre 0 et 1 dont la somme vaut 1).

Réponses au quiz final Chapitre 7

Voir les questions dans js/quiz.js (questionsChapitre7). Barème : 20 / nombre de questions par bonne réponse.

Ressources

Vidéo et PDF dans ../notebook/chapitre-7/ : Le_Transformer_expliqué.mp4, Inside_the_Transformer.pdf. Flashcards : ../notebook/chapitre-7/flashcards.csv.

Idées d'activités

Comparer : faire tokeniser deux phrases (une courte, une longue) et observer le nombre de tokens.
Slider température : jouer avec le paramètre T dans la viz et observer la distribution (piquée vs plate).
Trace écrite : la chaîne complète en 5 étapes (tokens → embedding → … → softmax).