Accueil / Fondements des LLMs

Niveau: Débutant · 11 leçons

Fondements des LLMs

Tokens, contexte, température, la famille Claude. Les bases indispensables.

Ouvrir le cours interactif237 leçons, quiz, exercices, un examen final avec diplôme, 3 langues, gratuit.

Ce qu'est vraiment un LLM

Un grand modèle de langage (LLM) ne "comprend" pas comme un humain et ne "cherche" pas dans une base de données. Il fait une seule chose, des milliards de fois : prédire le prochain fragment de texte le plus probable compte tenu de tout ce qui précède.

Conséquences pratiques, qui expliquent 90 % des surprises :

Il est excellent pour les motifs (style, structure, code idiomatique) car ce sont des régularités du langage.
Il peut inventer avec confiance (halluciner) : un texte faux mais plausible reste statistiquement probable. D'où la règle qui suit : donnez-lui les sources, ne faites pas confiance à sa mémoire pour les faits.
Il n'a aucune mémoire entre les conversations. Tout ce qu'il "sait" sur vous vit dans le contexte qui lui est transmis à chaque appel.
Ses connaissances s'arrêtent à une date de coupure. Pour les événements récents, vous devez lui fournir une recherche web.

Gardez cette image : un improvisateur brillant mais amnésique. Votre rôle est de lui donner le bon décor (contexte) pour chaque scène.

Points clés

Un LLM prédit le prochain token, rien d'autre
Halluciner = produire une sortie plausible mais fausse, un risque structurel
Aucune mémoire entre les sessions : tout vit dans le contexte
Connaissances figées à une date de coupure

Les tokens et la fenêtre de contexte

Le modèle ne voit pas des lettres ni des mots, mais des tokens : des fragments de texte. En gros, 1 token correspond à environ 4 caractères, soit 0,75 mot en anglais. Le mot "interesting" peut compter 2 ou 3 tokens.

La fenêtre de contexte est le nombre maximum de tokens que le modèle peut traiter en une seule fois : votre invite + l'historique + les fichiers + sa réponse. Les modèles Claude récents acceptent jusqu'à 200 000 tokens, et certaines configurations jusqu'à 1 million de tokens (le modèle qui a écrit ceci fonctionne à 1M).

Pourquoi c'est fondamental :

Tout se paie en tokens (entrée + sortie). Plus de contexte = plus cher et plus lent.
Quand la fenêtre se remplit, il faut résumer ou nettoyer (nous verrons /compact et /clear dans Claude Code).
Un contexte surchargé de bruit dégrade la qualité : le signal utile se noie. "Plus de contexte" ne signifie pas "meilleur résultat".

Le module 7 est entièrement consacré à la maîtrise du contexte et des coûts. Pour l'instant, retenez l'unité : le token.

Points clés

Token = fragment de texte, environ 4 caractères
Fenêtre de contexte = entrée + historique + fichiers + sortie, avec un plafond (200K, parfois 1M)
Tout est facturé en tokens, entrée et sortie
Trop de contexte parasite dégrade la qualité, pas seulement le coût

La température, et le mythe du réglage magique

La température régule l'aléatoire dans la prédiction. Basse (0 à 0.3) : le modèle choisit presque toujours le token le plus probable, ce qui donne des réponses stables et prévisibles, idéal pour le code, l'extraction, la classification. Haute (0.7 à 1) : plus de diversité, idéal pour le brainstorming et la créativité.

Deux autres paramètres que vous rencontrerez dans l'API :

max_tokens : la longueur maximale de la réponse. Trop bas = réponse coupée.
top_p : une alternative à la température (échantillonnage nucléaire). En général, on touche l'un ou l'autre, pas les deux.

Le piège classique du débutant : croire que l'on corrige un mauvais résultat en tripatouillant la température. 95 % du temps, le problème vient du prompt, pas du réglage. Un prompt clair à température 0.3 surpasse un prompt vague à n'importe quelle température. On ajuste la température en dernier, pas en premier.

Points clés

Température basse = stable et factuel ; haute = créatif et diversifié
max_tokens plafonne la sortie (attention aux coupures)
Un mauvais résultat vient presque toujours du prompt, pas de la température

La famille Claude : Opus, Sonnet, Haiku

Anthropic publie chaque génération en trois tailles, qui échangent intelligence contre vitesse et coût :

Opus : le plus puissant. Architecture, raisonnement difficile, débogage complexe, brainstorming. Le plus lent et le plus cher.
Sonnet : l'équilibre. Le cheval de bataille quotidien, très bon rapport qualité/coût.
Haiku : le plus rapide et le moins cher. Tâches répétitives, classification, volume, multi-langue.

Identifiants de modèles (utiles dans l'API et dans Claude Code) pour la génération actuelle :

Opus 4.8 : claude-opus-4-8
Sonnet 4.6 : claude-sonnet-4-6
Haiku 4.5 : claude-haiku-4-5-20251001

La règle de Pierre, appliquée dans sa pratique : Opus pour l'architecture, le brainstorming et le débogage ; déléguer le répétitif, le multi-langue et l'audit à Sonnet ou Haiku via des sous-agents. Plus de détails dans le module multi-agent. Côté facturation, les appels Claude sont la ressource bon marché de sa configuration : seuls les services externes payants comptent vraiment.

Points clés

Opus = puissance, Sonnet = équilibre, Haiku = vitesse/volume
Mêmes identifiants partout : claude-opus-4-8, claude-sonnet-4-6, claude-haiku-4-5-...
Pierre : Opus pour l'architecture/débogage, Sonnet/Haiku pour le travail répétitif délégué

Le sens sans dictionnaire : les embeddings

Quand un modèle de langage lit un mot ou une phrase, il ne le cherche pas dans un dictionnaire. Il convertit le texte en un vecteur, c'est-à-dire une longue liste de nombres (souvent des centaines ou des milliers de valeurs). Cette liste est appelée un embedding. Chaque nombre capture une infime facette du sens, si bien que la liste entière représente ce que le texte "signifie" pour le modèle.

L'intuition clé est que des sens similaires produisent des vecteurs similaires. Dans l'espace mathématique où vivent ces vecteurs (appelé espace d'embedding), les mots et expressions se regroupent par sens. "Docteur" et "médecin" se retrouvent proches l'un de l'autre. "Chien" et "chat" sont voisins mais loin de "facture". Le modèle n'avait pas besoin d'une règle disant que ces mots sont liés : il a appris leurs positions en traitant des milliards de phrases.

Cette géométrie du sens est ce qui permet à Claude de répondre aux questions, de trouver des passages pertinents et de comprendre le contexte. Quand vous posez une question, elle est convertie en vecteur, et le modèle trouve le contenu dont le vecteur est proche dans l'espace d'embedding. Ce procédé s'appelle la recherche sémantique (recherche par le sens, et non par les mots exacts).

Vecteur : une liste de nombres qui encode un concept.
Embedding : le vecteur spécifique qu'un modèle attribue à un morceau de texte.
Espace d'embedding : la carte multidimensionnelle où vivent tous ces vecteurs.
Recherche sémantique : trouver un texte par distance de sens plutôt que par correspondance de mots-clés.

Points clés

Les embeddings convertissent le texte en listes de nombres
Des sens similaires sont proches dans l'espace d'embedding
La recherche sémantique utilise la distance vectorielle, pas les mots-clés
Les modèles apprennent ces positions à partir des données, pas de règles

Échantillonnage : pourquoi le même prompt varie

Chaque fois qu'un modèle de langage génère du texte, il choisit les mots un par un. Après chaque mot, il consulte une liste de probabilités : des milliers de mots candidats, chacun avec un score. La façon dont il pioche dans cette liste s'appelle le décodage, et c'est la principale raison pour laquelle deux prompts identiques peuvent produire des réponses différentes.

Le décodage glouton choisit toujours le mot avec le score le plus élevé. Il est rapide et entièrement déterministe (la sortie est toujours la même), mais il tend à produire un texte plat et répétitif. Le décodage par échantillonnage introduit de l'aléatoire : le modèle tire dans la liste de probabilités plutôt que de prendre systématiquement le premier élément. Le degré d'aléatoire est contrôlé par la température (abordée dans la leçon suivante) et par deux filtres appliqués avant l'échantillonnage :

Filtrage top-k : ne conserver que les k candidats au score le plus élevé et écarter les autres. Si k vaut 40, seuls les 40 mots les plus probables sont éligibles à chaque étape.
Filtrage top-p (échantillonnage nucléaire) : conserver le plus petit ensemble de candidats dont la probabilité cumulée atteint p. Si p vaut 0,9, les mots représentant ensemble 90 % de la masse de probabilité sont conservés ; la longue traîne de mots peu probables est supprimée. Ce mécanisme s'adapte dynamiquement : lorsque le modèle est très confiant, moins de mots passent le filtre.

En pratique, top-p et top-k sont souvent appliqués ensemble avant l'échantillonnage basé sur la température. L'API de Claude expose ces deux paramètres. Augmenter p ou k élargit le pool et accroît la variété ; les diminuer rend le modèle plus prévisible. Fixer la température à 0 revient au décodage glouton, quels que soient les réglages top-p ou top-k.

Points clés

Le décodage glouton choisit toujours le mot de plus haute probabilité, produisant une sortie déterministe.
Top-k limite les candidats aux k mots les plus probables à chaque étape.
Top-p (échantillonnage nucléaire) conserve le plus petit ensemble de mots couvrant p de la probabilité totale.
Le décodage par échantillonnage introduit une variété utile ; la température 0 la supprime.

Trois voix : system, user, assistant

Chaque conversation envoyée à un LLM (grand modèle de langage) est composée de messages, et chaque message appartient à l'un des trois rôles : system, user ou assistant. Comprendre ces rôles vous permet de savoir exactement comment Claude est instruite, qui parle, et ce que Claude est autorisée à dire.

Le system prompt est défini par celui qui construit le produit (un développeur, une entreprise, ou Claude Code lui-même). Il arrive avant le début de la conversation et indique à Claude comment se comporter : sa personnalité, ses limites, sa mission. L'utilisateur ne le voit pas, sauf si le créateur choisit de le montrer.

Le tour user correspond à votre message : la question, l'instruction ou le fichier que vous envoyez. Le tour assistant est la réponse de Claude. Ces deux rôles s'alternent pour former l'historique de conversation que Claude lit à chaque fois qu'elle répond.

system : instructions invisibles du créateur, qui définissent les règles et la personnalité.
user : votre saisie, le message que vous tapez ou le fichier que vous joignez.
assistant : la réponse de Claude, générée à partir de tout ce qui précède dans le fil de conversation.

Points clés

Le system prompt est invisible pour l'utilisateur mais contrôle le comportement de Claude.
Les tours user et assistant s'alternent pour former l'historique de conversation.
Claude lit l'intégralité de l'historique à chaque réponse, pas seulement le dernier message.
Savoir quel rôle contient quel texte aide à déboguer un comportement inattendu.

Comment Claude a été entraîné

Claude commence sa vie comme tout grand modèle de langage (LLM) : il passe par le préentraînement, au cours duquel il lit une portion massive d'internet, de livres et de code. Durant cette phase, le modèle apprend la grammaire, des faits, des schémas de raisonnement et des styles d'écriture, uniquement en prédisant le mot suivant, des milliards de fois. Aucune guidance humaine encore, seulement des statistiques à une échelle colossale.

Vient ensuite le RLHF (Reinforcement Learning from Human Feedback, ou apprentissage par renforcement à partir de retours humains). Des formateurs humains évaluent des paires de réponses du modèle, et ces évaluations servent à entraîner un "modèle de préférences" distinct. Claude est alors affiné pour produire des réponses qui obtiennent de bons scores sur ce modèle de préférences. C'est ainsi que la prédiction de texte brut devient un assistant utile qui suit les instructions et évite les erreurs flagrantes.

Anthropic ajoute une troisième couche appelée Constitutional AI (CAI). Au lieu de s'appuyer uniquement sur des évaluateurs humains, CAI fournit au modèle un ensemble de principes écrits (une "constitution") et lui demande de critiquer et réviser ses propres réponses à la lumière de ces principes. Cela rend le processus d'alignement plus évolutif et plus transparent, car les règles sont explicites plutôt qu'enfouies dans les intuitions des évaluateurs.

Ces trois phases façonnent tout ce que vous vivez lorsque vous parlez à Claude :

Le préentraînement détermine ce que Claude sait et comment il raisonne.
Le RLHF détermine à quel point il est utile et capable de suivre des instructions.
Constitutional AI détermine ses limites de sécurité et ses valeurs constantes.
Ces trois phases ensemble expliquent pourquoi Claude peut écrire du code de manière fluide mais refusera certaines demandes sans que l'utilisateur le lui ait demandé.

Points clés

Préentraînement : apprendre la langue à partir de texte brut à grande échelle
RLHF : façonner le comportement grâce aux évaluations de préférences humaines
Constitutional AI : autocritique à partir de principes écrits
Les phases d'entraînement déterminent les connaissances, l'utilité et les limites de sécurité

L'attention et pourquoi la position compte

Chaque LLM (grand modèle de langage) moderne repose sur un mécanisme appelé attention. Lorsque le modèle lit votre invite, il ne traite pas chaque mot de la même façon. Il attribue un score à chaque mot (ou token) par rapport à tous les autres et détermine lesquels sont les plus pertinents pour chaque étape de la réponse. Imaginez que le modèle se pose la question : "pour écrire ce prochain mot, sur quels mots précédents dois-je m'appuyer le plus ?"

Étant donné que les scores d'attention sont calculés sur l'ensemble de la fenêtre de contexte (le texte total que le modèle peut voir en une seule fois), le modèle peut en théorie relier n'importe quelles deux informations, quelle que soit la distance qui les sépare. En pratique, cependant, les chercheurs ont observé un phénomène appelé lost-in-the-middle : les modèles ont tendance à mieux rappeler les informations placées au tout début ou à la toute fin d'une invite longue, plutôt que celles enfouies au milieu.

Cela a une conséquence directe et pratique sur la façon dont vous structurez vos invites et les documents que vous transmettez à Claude :

Placez la tâche ou la question en premier (ou du moins très tôt). Le modèle ancre son attention sur les tokens d'ouverture.
Placez les faits ou contraintes critiques vers la fin, juste avant que la réponse soit attendue. Le contenu en fin d'invite est rappelé de façon fiable.
Évitez d'enfouir les règles importantes au milieu d'un long bloc de texte de contexte. Ces règles sont celles qui ont le plus de risque d'être ignorées ou oubliées.
Utilisez la structure (titres, listes à puces, étiquettes explicites comme "IMPORTANT :") pour renforcer l'attention sur les passages critiques, où qu'ils se trouvent.

Le même principe s'applique lorsque vous transmettez à Claude un long document et lui posez une question à son sujet. Placez votre question avant le document, reformulez-la brièvement après, et mettez en évidence la section pertinente avec une étiquette. Cette structure en sandwich combat l'effet lost-in-the-middle et produit systématiquement de meilleures réponses.

Points clés

L'attention pondère chaque token par rapport à tous les autres pour déterminer la pertinence
Lost-in-the-middle : les informations enfouies au milieu d'une invite longue sont les moins bien rappelées
Placez les tâches tôt, les contraintes critiques tard, et utilisez la structure pour signaler l'importance
Reformuler une question avant et après un long document améliore le rappel

La date limite de connaissance et l'ancrage

Tout grand modèle de langage (LLM) est entraîné sur un instantané de textes rassemblés jusqu'à une date précise, appelée la date limite de connaissance. Au-delà de cette date, le modèle n'a aucune connaissance des nouveaux événements, des prix mis à jour, des lois révisées ni de quoi que ce soit d'autre qui aurait changé. La date limite de connaissance de Claude est août 2025 ; il ne peut donc pas répondre de façon fiable sur ce qui s'est passé après ce point.

Cela pose un problème pratique : le monde continue d'évoluer tandis que le modèle reste figé. Une question sur les cours boursiers actuels, la dernière version d'un logiciel ou un événement politique récent produira probablement une réponse obsolète ou tout simplement erronée, même d'un modèle compétent. Le modèle ne sait pas ce qu'il ne sait pas, et il peut donc répondre avec une fausse assurance.

L'ancrage est la technique utilisée pour remédier à cela. Elle consiste à donner au modèle accès à des informations fraîches et fiables au moment où il répond, plutôt que de s'appuyer uniquement sur ce qu'il a mémorisé lors de son entraînement. Les deux méthodes d'ancrage les plus courantes sont :

Intégration de la recherche web : le système récupère des résultats de recherche en direct et les injecte dans le contexte du modèle avant qu'il ne réponde. Claude.ai peut le faire grâce à son bouton de recherche intégré.
Sources fournies manuellement : vous collez ou joignez vous-même le texte pertinent (un document, un extrait de page web, un fichier de données). Le modèle raisonne sur ce que vous lui avez fourni, et non sur sa mémoire périmée.

L'ancrage ne rend pas le modèle infaillible, mais il déplace le goulot d'étranglement des données d'entraînement figées vers la qualité des sources que vous fournissez. Vérifiez ou citez toujours ces sources de façon indépendante pour tout ce qui est important.

Points clés

Date limite de connaissance : la date au-delà de laquelle un modèle ne dispose plus de données d'entraînement
Ancrage : fournir des sources actuelles pour que le modèle raisonne sur des faits récents
L'intégration de la recherche web injecte des résultats en direct dans le contexte du modèle
Coller ou joindre du texte est la forme la plus simple d'ancrage manuel

L'ère Claude 5 : Fable et Mythos

Le 9 juin 2026, Anthropic a lancé une nouvelle famille de modèles appelée Claude 5, introduisant un palier au-dessus de la pile familière Opus/Sonnet/Haiku. Un palier de modèle (model tier) est une bande de nommage qu'Anthropic utilise pour signaler la capacité et le prix relatifs (Haiku est le palier le plus rapide et le moins cher, Sonnet le milieu équilibré, Opus l'ancien sommet). Le nouveau palier s'appelle classe Mythos, et il se situe au-dessus d'Opus. Deux modèles partagent ce même modèle sous-jacent de classe Mythos : Fable 5 (id API claude-fable-5) et Mythos 5 (id API claude-mythos-5). Ils ont des capacités, une tarification et un comportement API identiques. La seule différence est qui peut y accéder et quels contrôles de sécurité s'appliquent à chacun.

Fable 5 est la version généralement disponible (GA), ce qui signifie que tout client payant peut l'appeler via l'API ou l'utiliser dans une application Claude. Mythos 5 est réservé sur invitation, accessible uniquement aux organisations approuvées dans le cadre d'un programme appelé Project Glasswing. Les catégories approuvées incluent les cyberdéfenseurs (équipes de sécurité protégeant des infrastructures), les fournisseurs d'infrastructure, et les organisations disposant de ce qu'Anthropic appelle un « accès bio de confiance » (accès vérifié à des capacités proches de la recherche biologique). Pour un utilisateur ou développeur ordinaire, cette distinction compte d'une façon pratique : sur un forfait payant vous obtenez Fable 5, et Mythos 5 ne vous est tout simplement pas accessible, sauf si votre employeur a été individuellement approuvé dans Project Glasswing.

La différence entre les deux modèles réside dans un ensemble de trois garde-fous de sécurité basés sur des classifieurs intégrés à Fable 5. Un classifieur, ici, est un système automatisé plus petit qui scanne une requête et la signale si elle correspond à un schéma risqué, avant ou pendant la réponse du modèle. Les trois garde-fous de Fable 5 ciblent : la capacité cyber offensive (aider à construire des outils d'attaque), le contenu bio/chimique dangereux (aider à synthétiser du matériel pertinent pour des armes), et la prévention de la distillation (empêcher quelqu'un d'extraire systématiquement les schémas de raisonnement propres de Fable 5 pour entraîner à moindre coût un modèle concurrent). Anthropic indique que ces garde-fous se déclenchent dans moins de 5 % des sessions, si bien que l'immense majorité du travail quotidien de code, d'écriture et d'analyse n'est pas affectée. Mythos 5 fonctionne sans ces classifieurs à double usage, ce qui explique justement pourquoi il est réservé aux organisations vérifiées plutôt qu'ouvert à tous : retirer les garde-fous n'est acceptable que lorsque la fiabilité du demandeur a déjà été établie.

Un choix de conception notable : quand l'un des trois garde-fous de Fable 5 se déclenche, la requête ne reçoit pas un refus sec. Elle bascule à la place vers Opus 4.8, le modèle de palier suivant chez Anthropic, qui répond à la requête selon son propre profil de sécurité (moins restrictif). Cela signifie qu'un chercheur en sécurité légitime posant une question de cybersécurité limite a plus de chances d'obtenir une réponse utile d'Opus 4.8 que de se heurter à une impasse. Avant la sortie, Anthropic a commandité plus de 1 000 heures de red-teaming externe (des chercheurs en sécurité indépendants essayant professionnellement de contourner les mesures de sécurité du modèle) et a rapporté qu'aucun jailbreak universel n'a été trouvé, ce qui signifie qu'aucune technique unique ne contournait de manière fiable tous les garde-fous à la fois.

Le lancement n'a pas été sans rebondissement. Le 12 juin 2026, seulement trois jours après la sortie, le gouvernement des États-Unis a appliqué des contrôles à l'exportation (export controls) à ce nouveau palier de modèle : des restrictions légales sur les pays ou entités autorisés à accéder à certaines technologies avancées. Anthropic ne pouvait pas vérifier, en temps réel, la nationalité de chaque utilisateur effectuant une requête via l'API. Plutôt que de risquer de violer ces contrôles, Anthropic a suspendu Fable 5 et Mythos 5 pour tout le monde, mondialement, et pas seulement pour les utilisateurs des régions restreintes. Les contrôles ont été levés le 30 juin 2026, et Anthropic a redéployé Fable 5 dans le monde entier le 1er juillet 2026. La version redéployée est sortie avec un classifieur anti-jailbreak supplémentaire dont Anthropic affirme qu'il bloque une technique de contournement déjà connue dans plus de 99 % des cas, une amélioration réalisée pendant la fenêtre de suspension de trois semaines.

Côté API, Fable 5 coûte 10 $ par million de tokens en entrée et 50 $ par million de tokens en sortie, tous deux au-dessus de la tarification d'Opus 4.8 à 5 $/25 $, reflet de son statut de palier supérieur. Il offre une fenêtre de contexte d'un million de tokens (la quantité de texte qu'il peut considérer à la fois) et jusqu'à 128 000 tokens de sortie maximale par réponse. Un détail technique clé : Fable 5 fonctionne toujours avec le raisonnement adaptatif (adaptive thinking), un mode de raisonnement interne où le modèle décide lui-même du degré de délibération avant de répondre, et cela ne peut pas être désactivé via l'API, seulement ajusté en profondeur via un réglage « effort ».

Pour un débutant, l'enseignement pratique est simple : à partir de juillet 2026, si vous êtes un utilisateur payant de Claude, Fable 5 est le modèle le plus capable auquel vous pouvez accéder, et Mythos 5 existe comme un frère jumeau tout aussi puissant que la plupart des gens ne toucheront jamais, car il exige une approbation organisationnelle, pas une compétence personnelle ni un palier de paiement. L'état de l'art, pour vous, c'est Fable 5.

Points clés

Fable 5 (claude-fable-5) et Mythos 5 (claude-mythos-5) sont le même modèle sous-jacent de classe Mythos ; Fable 5 est GA, Mythos 5 est sur invitation via Project Glasswing.
Les trois classifieurs de sécurité de Fable 5 (cyber, bio/chimique, distillation) se déclenchent dans moins de 5 % des sessions et basculent vers Opus 4.8 plutôt qu'un refus sec.
Des contrôles à l'exportation américains ont forcé une suspension mondiale des deux modèles le 12 juin 2026 ; Fable 5 est revenu mondialement le 1er juillet 2026 avec un classifieur anti-jailbreak renforcé.
Tarification de Fable 5 : 10 $/50 $ par million de tokens entrée/sortie, fenêtre de contexte de 1M, sortie maximale de 128K, raisonnement adaptatif toujours actif.

Travailler avec moi

Besoin de ce niveau d'exécution sur votre projet ?

Je suis Pierre Bottazzi. J'ai construit ce cours seul, de bout en bout : 237 leçons en 3 langues, l'application, le design, le SEO, le système de comptes. C'est exactement ce que je fais pour mes clients : web apps, apps mobiles, automatisation IA, SEO/GEO. Premier échange gratuit, sans engagement : vous restez entièrement libre.

Me contacter sur LinkedIn Voir sept-tools.com (industrie)Voir totemsauvage.com (galerie d'art)

Inspiration

Inspiré par 0xloucash

L'une de mes inspirations. Loucash (0xloucash) a le don de toujours dénicher les meilleures astuces IA, puis de les transformer en installations qui marchent pour de vrai. Avec InstallClaw, il configure votre propre agent IA OpenClaw, chez vous, en 48 h.

Son Instagram InstallClaw